JPH0353300A - 音声符号化装置 - Google Patents
音声符号化装置Info
- Publication number
- JPH0353300A JPH0353300A JP1189084A JP18908489A JPH0353300A JP H0353300 A JPH0353300 A JP H0353300A JP 1189084 A JP1189084 A JP 1189084A JP 18908489 A JP18908489 A JP 18908489A JP H0353300 A JPH0353300 A JP H0353300A
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- signal
- sound source
- frame
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 claims abstract description 45
- 230000005236 sound signal Effects 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims description 36
- 230000003595 spectral effect Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 description 37
- 239000013598 vector Substances 0.000 description 22
- 238000005311 autocorrelation function Methods 0.000 description 9
- 238000005314 correlation function Methods 0.000 description 9
- 230000005284 excitation Effects 0.000 description 9
- 230000004044 response Effects 0.000 description 9
- 238000013139 quantization Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 101100379080 Emericella variicolor andB gene Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 230000005279 excitation period Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、音声信号を低いビットレート、特に4.8k
b/s以下で、比較的すくない演算量により高品質に符
号化するための音声符号化復号化方式に関する。
b/s以下で、比較的すくない演算量により高品質に符
号化するための音声符号化復号化方式に関する。
(従来の技術)
音声信号を4.8kb/s程度の低いビノl・レートで
符号化する方式としては、例えば特願昭63−2082
01号明細書(文献1)や、M. Schroeder
and B. Ata1氏による“Code−exc
表すed linear prediction :
High qual表すyspeech at ver
y low b表す rates,”と題した論文(I
CASSP,pp. 937−940. 1985年)
(文献2)等に記載されている音声符号化方式が知られ
ている。
符号化する方式としては、例えば特願昭63−2082
01号明細書(文献1)や、M. Schroeder
and B. Ata1氏による“Code−exc
表すed linear prediction :
High qual表すyspeech at ver
y low b表す rates,”と題した論文(I
CASSP,pp. 937−940. 1985年)
(文献2)等に記載されている音声符号化方式が知られ
ている。
文献1の方法では、送信側では、フレーム毎の音声信号
から音声信号のスペクトル特性を表すスペクトルパラメ
ータとピンチを表すピンチパラメータを抽出し、音声信
号を音響的特徴を用いて複数種類(母音性、破裂性、摩
擦性など)に分類し、母音性区間では1フレームの音源
信号を改良ピッチ補間により次のように表す。1フレー
ムをピッチ区間毎に分割した複数個のピッチ区間のうち
の一つのピッチ区間(代表区間)についてマルチパルス
で表す。同じフレームの他のピノチ区間では、代表区間
におけるマルチパルスの振幅、位相を補正するだめの振
幅、位相補正係数を他のピノチ区間毎に求める。そして
代表区間のマルチパルスの振幅、位置、他のピンチ区間
での振幅、位相補正係数とスペクトル、ピッチパラメー
タを伝送する。また、破裂性区間ではフレーム全体でマ
ルチパルスを求める。また、摩擦性区間では、予め定め
られた種類の雑音信号からなるコードブノクから、雑音
信号により合威した信号と入力音声信号との誤差電力を
最小化するように一種類の雑音信号を選択するとともに
最適なゲインを計算する。そして雑音信号の種類を表す
インデクスとゲインを伝送する。受信側の説明は省略す
る。
から音声信号のスペクトル特性を表すスペクトルパラメ
ータとピンチを表すピンチパラメータを抽出し、音声信
号を音響的特徴を用いて複数種類(母音性、破裂性、摩
擦性など)に分類し、母音性区間では1フレームの音源
信号を改良ピッチ補間により次のように表す。1フレー
ムをピッチ区間毎に分割した複数個のピッチ区間のうち
の一つのピッチ区間(代表区間)についてマルチパルス
で表す。同じフレームの他のピノチ区間では、代表区間
におけるマルチパルスの振幅、位相を補正するだめの振
幅、位相補正係数を他のピノチ区間毎に求める。そして
代表区間のマルチパルスの振幅、位置、他のピンチ区間
での振幅、位相補正係数とスペクトル、ピッチパラメー
タを伝送する。また、破裂性区間ではフレーム全体でマ
ルチパルスを求める。また、摩擦性区間では、予め定め
られた種類の雑音信号からなるコードブノクから、雑音
信号により合威した信号と入力音声信号との誤差電力を
最小化するように一種類の雑音信号を選択するとともに
最適なゲインを計算する。そして雑音信号の種類を表す
インデクスとゲインを伝送する。受信側の説明は省略す
る。
(発明が解決しようとする課題)
文献1に示した従来方式では、ピッチ周期の短い女性話
者に対しては、フレーム内に多くのピッチ区間がはいる
ので、改良ピッチ補間が効果的に動き、フレーム全体で
等価的に十分な個数のパルスが得られる。例えば、フレ
ーム長を20ms、ピンチ周期を4ms、代表区間のパ
ルスの個数を4とすれば、改良ピソチ補間により、フレ
ーム全体ではパルスの個数は等価的に20となる。
者に対しては、フレーム内に多くのピッチ区間がはいる
ので、改良ピッチ補間が効果的に動き、フレーム全体で
等価的に十分な個数のパルスが得られる。例えば、フレ
ーム長を20ms、ピンチ周期を4ms、代表区間のパ
ルスの個数を4とすれば、改良ピソチ補間により、フレ
ーム全体ではパルスの個数は等価的に20となる。
しかしながら、ビノチ周期の長い男声話者にヌ・1して
は、フレーム全体の等価的なパルス数は十分でないため
、改良ピソチ補間の効果が十分でなく音質的にも十分で
ないという問題点があった。例えば、ビノチ周期を10
msとしピッチ当たりのパルス数を4とすると、フレー
ム全体のパルス数は8で、女性話者の場合に比べて著し
く少なかった。
は、フレーム全体の等価的なパルス数は十分でないため
、改良ピソチ補間の効果が十分でなく音質的にも十分で
ないという問題点があった。例えば、ビノチ周期を10
msとしピッチ当たりのパルス数を4とすると、フレー
ム全体のパルス数は8で、女性話者の場合に比べて著し
く少なかった。
これを改善するためにはピンチ当たりのパルス数を増や
す必要が生じるがビソトレートが増大するため、パルス
数を増やすことは困難である。
す必要が生じるがビソトレートが増大するため、パルス
数を増やすことは困難である。
さらにこれらの問題点は、ビットレートを4.8kb/
sよりも低減し3kb/sや2.4kb/sとしたとき
には、ピッチ当たりのパルス数を2〜3パルスに低下さ
せる必要があるので、問題は、さらに大きくなってくる
。またこのようなビットレートでは女性話者に対しても
改良ピソチ補間の効果は不十分になってくる。
sよりも低減し3kb/sや2.4kb/sとしたとき
には、ピッチ当たりのパルス数を2〜3パルスに低下さ
せる必要があるので、問題は、さらに大きくなってくる
。またこのようなビットレートでは女性話者に対しても
改良ピソチ補間の効果は不十分になってくる。
一方、文献2に示したCELP方式では、4.8kb/
sのビソトレートでは、ビットレートを低減したときに
コードブノクのビット数を低下させる必要があり、音質
が急激に低下していた。例えば、4.8kb/sでは一
般に5msのサブフレームに対して10ビットのコード
ブソクを使用するが、ビノトレートを2.4kb/sと
すると、サブフレームを5msのままとするとコードブ
ックを5ビットとする必要がある。
sのビソトレートでは、ビットレートを低減したときに
コードブノクのビット数を低下させる必要があり、音質
が急激に低下していた。例えば、4.8kb/sでは一
般に5msのサブフレームに対して10ビットのコード
ブソクを使用するが、ビノトレートを2.4kb/sと
すると、サブフレームを5msのままとするとコードブ
ックを5ビットとする必要がある。
5ビットでは音源信号のあらゆる種類を綱羅するために
は著しく不足するために、ビノトレートを4.8kb/
s程度以下とすると音質が急激に低下していた。
は著しく不足するために、ビノトレートを4.8kb/
s程度以下とすると音質が急激に低下していた。
本発明の目的は、上述した問題点を解決し、比較的少な
い演算量により4.8kb/s以下で音質の良好な音声
符号化復号化方式を提供することにある。
い演算量により4.8kb/s以下で音質の良好な音声
符号化復号化方式を提供することにある。
(課題を解決するための手段)
本発明による音声符号化復号化方式は、入力した離敗的
な音声信号からスペクトル包絡を表すスペクトルパラメ
ータとピンチを表すピノチパラメータを求め、前記フレ
ーム区間を前記ピッチパラメータに応じた小区間に分割
し、前記小区間の内の1つの区間において過去の音源信
号をもとに予測して求めた残差信号に対してマルチパル
スを求めて前記小区間の音源信号を求め、前記フレーム
内の他のピッチ区間では前記音源信号に関して振幅ある
いは位相の少なくとも一方を補正するだめの補正情報を
求めて出力することを特徴とする。
な音声信号からスペクトル包絡を表すスペクトルパラメ
ータとピンチを表すピノチパラメータを求め、前記フレ
ーム区間を前記ピッチパラメータに応じた小区間に分割
し、前記小区間の内の1つの区間において過去の音源信
号をもとに予測して求めた残差信号に対してマルチパル
スを求めて前記小区間の音源信号を求め、前記フレーム
内の他のピッチ区間では前記音源信号に関して振幅ある
いは位相の少なくとも一方を補正するだめの補正情報を
求めて出力することを特徴とする。
また本発明による音声符号化復号化方式は、入力した離
散的な音声信号からスペクトル包絡を表すスペクトルパ
ラメータとピッチを表すピンチパラメータを求め、前記
フレーム区間を前記ピッチパラメータに応じた小区間に
分割し、前記小区間の内の1つの区間において過去の音
源信号をもとに予測して求めた残差信号に対して予め定
められた種類の音源信号が格納されたコードブックから
一種類の音源信号を選択することにより前記小区間の音
源信号を求め、前記フレーム内のピッチ区間では前記音
源信号に関して振幅あるいは位相の少なくとも一方を補
正するための補正情報を求めて出力することを特徴とす
る。
散的な音声信号からスペクトル包絡を表すスペクトルパ
ラメータとピッチを表すピンチパラメータを求め、前記
フレーム区間を前記ピッチパラメータに応じた小区間に
分割し、前記小区間の内の1つの区間において過去の音
源信号をもとに予測して求めた残差信号に対して予め定
められた種類の音源信号が格納されたコードブックから
一種類の音源信号を選択することにより前記小区間の音
源信号を求め、前記フレーム内のピッチ区間では前記音
源信号に関して振幅あるいは位相の少なくとも一方を補
正するための補正情報を求めて出力することを特徴とす
る。
(作用)
本発明による音声符号化復号化方式の作用を説明する。
ピンチ毎の周期性のある有声区間では、あらかじめフレ
ーム内の音声信号からピッチ周期を表すピンチパラメー
タを求め、たとえば、第3図(a)に示すような音声波
形を、第3図(b)のようにフレーム区間を前記ピッチ
周期毎の複数個のピンチ区間(サブフレーム)に分割す
る。次に、前記ピンチ区間のうちの1つのピッチ区間(
代表区間)について、過去の音源信号を用いて予測を行
い得た残差信号に対して、予め定められた個数のマルチ
パルスを求める。次に同一フレーム内の他のサブフレー
ムでは、代表区間のマルチパルスのゲイン、位相を補正
するゲイン、位相補正係数を求める。
ーム内の音声信号からピッチ周期を表すピンチパラメー
タを求め、たとえば、第3図(a)に示すような音声波
形を、第3図(b)のようにフレーム区間を前記ピッチ
周期毎の複数個のピンチ区間(サブフレーム)に分割す
る。次に、前記ピンチ区間のうちの1つのピッチ区間(
代表区間)について、過去の音源信号を用いて予測を行
い得た残差信号に対して、予め定められた個数のマルチ
パルスを求める。次に同一フレーム内の他のサブフレー
ムでは、代表区間のマルチパルスのゲイン、位相を補正
するゲイン、位相補正係数を求める。
まず予測の方法について以下で説明する。今、前フレー
ムで復元した駆動音源信号をv(n)、予測の係数をb
、周期をMとする。現フレームの代表区間を第3図(C
)の第■区間とし、この区間での音声信号をx1(n)
とする。係数b、周期Mは次式の誤差篭力を最小化する
ように計算する。
ムで復元した駆動音源信号をv(n)、予測の係数をb
、周期をMとする。現フレームの代表区間を第3図(C
)の第■区間とし、この区間での音声信号をx1(n)
とする。係数b、周期Mは次式の誤差篭力を最小化する
ように計算する。
E=Σ[{x1(n)− b−v(n − M)*h(
n))*w(n)]2(1)n ここでw(n)は聴感重みずけフィルタのインパルス応
答を示し、具体的には、特願昭57−231605号明
細書(文献3)等を参照できる。またh(n)は現フレ
ームの音声から衆知の線形予測(LPC)分析により求
めたスぺクトルパラメータを用いて構威される合或フィ
ルタのインパルス応答を示す。具体的な求め方は前記文
献3等を参照できる。記号*は畳み込み和を示す。
n))*w(n)]2(1)n ここでw(n)は聴感重みずけフィルタのインパルス応
答を示し、具体的には、特願昭57−231605号明
細書(文献3)等を参照できる。またh(n)は現フレ
ームの音声から衆知の線形予測(LPC)分析により求
めたスぺクトルパラメータを用いて構威される合或フィ
ルタのインパルス応答を示す。具体的な求め方は前記文
献3等を参照できる。記号*は畳み込み和を示す。
(1)式を最小化するには、(1)式をbで偏微分して
Oとおき次式を得る。
Oとおき次式を得る。
ただし
xW(n)= b−v(n − M)*h(n)*w(
n) (3)(2)式を(1)式に代入し
て (4)式第1項は定数項であるので、(4)式の第2項
を最犬化することにより、(1)式は最小化される。従
って、種々のMの値に対して(4)式第2項を計算して
これを最犬化するMを求め、(2)式からbの値を計算
する。
n) (3)(2)式を(1)式に代入し
て (4)式第1項は定数項であるので、(4)式の第2項
を最犬化することにより、(1)式は最小化される。従
って、種々のMの値に対して(4)式第2項を計算して
これを最犬化するMを求め、(2)式からbの値を計算
する。
次に求めたb, Mを用いて次式に従い区間のに対して
ピッチ予測を行い残差信号e(n)を求める。
ピッチ予測を行い残差信号e(n)を求める。
e(n) = x1(n) 一b・v(n − M)*
h(n) (5)e(n)の例を第3図
(c)に示す。
h(n) (5)e(n)の例を第3図
(c)に示す。
次に残差信号e(n)に対して予め定められた個数のマ
ルチパルスを求める。マルチパルスの具体的な求め方は
相互相関関数Φxhと自己相関関数Rhhを用いて求め
る方法が知られており、これは例えば前記文献3や、A
raseki, Ozawa, Ono, Ociha
i氏による“Multi−pulse Exc表すed
Speech Coder Based onMax
imum Cross−correlation Se
arch A Igor表すhm,”(GLOBECO
M 83, IEEE Global Tele−co
mmunicationsConference ,講
演番号23.3、1983)(文献4)に記載されてい
るのでここでは説明を省略する。区間ので求めたマルチ
パルスの例を第3図(d)に示す。図では2個のパルス
を求めている。
ルチパルスを求める。マルチパルスの具体的な求め方は
相互相関関数Φxhと自己相関関数Rhhを用いて求め
る方法が知られており、これは例えば前記文献3や、A
raseki, Ozawa, Ono, Ociha
i氏による“Multi−pulse Exc表すed
Speech Coder Based onMax
imum Cross−correlation Se
arch A Igor表すhm,”(GLOBECO
M 83, IEEE Global Tele−co
mmunicationsConference ,講
演番号23.3、1983)(文献4)に記載されてい
るのでここでは説明を省略する。区間ので求めたマルチ
パルスの例を第3図(d)に示す。図では2個のパルス
を求めている。
以上から次式により区間■の音源信号d(n)を求める
。
。
d(n) = b・v(n − M) + gi・δ(
n−mi) (6)ここでgi,miは
i番目のマルチパルスの振幅、位置を示す。
n−mi) (6)ここでgi,miは
i番目のマルチパルスの振幅、位置を示す。
次に代表区間以外のピッチ区間では、代表区間の音源信
号のゲイン、位相を補正するゲイン補正係数、位相補正
係数を各区間毎に計算する。j番目のピッチ区間におけ
るゲイン補正係数、位相補正係数をそれぞれCj,dj
とすると、これらは次式を最小化するように計算できる
。
号のゲイン、位相を補正するゲイン補正係数、位相補正
係数を各区間毎に計算する。j番目のピッチ区間におけ
るゲイン補正係数、位相補正係数をそれぞれCj,dj
とすると、これらは次式を最小化するように計算できる
。
上式の具体的な解法は前記文献3等で詳細に説明されて
いるのでここでは説明を省略する。代表区間以外の各ピ
ッチ区間で(7)式をもとにゲイン、位相補正係数を求
めてフレームの音源信号を求める。
いるのでここでは説明を省略する。代表区間以外の各ピ
ッチ区間で(7)式をもとにゲイン、位相補正係数を求
めてフレームの音源信号を求める。
第3図(e)に区間■以外のピッチ区間でゲイン、位相
補正係数を求め現在のフレームの駆動音源信号を復元し
た例を示す。
補正係数を求め現在のフレームの駆動音源信号を復元し
た例を示す。
代表区間はここでは■番目のピッチ区間に固定して示し
たが、フレーム内のいくつかのピッチ区間を調べてフレ
ームの入力音声と合或音声との誤差電力を最も小さくす
るものを代表区間としてもよい。具体的な方法は前記文
献1等を参照できる。
たが、フレーム内のいくつかのピッチ区間を調べてフレ
ームの入力音声と合或音声との誤差電力を最も小さくす
るものを代表区間としてもよい。具体的な方法は前記文
献1等を参照できる。
伝送情報は、フレーム毎に音源情報として、代表区間の
フレーム内のピンチ区間の位置(代表区間が固定のとき
は必要なし)、代表区間の予測係数b、周期M、マルチ
パルスの振幅、位置と同一フレームの他のピッチ区間に
おけるゲイン補正係数、位相補正係数を伝送する。
フレーム内のピンチ区間の位置(代表区間が固定のとき
は必要なし)、代表区間の予測係数b、周期M、マルチ
パルスの振幅、位置と同一フレームの他のピッチ区間に
おけるゲイン補正係数、位相補正係数を伝送する。
次に第2の発明では、代表区間で予測して得られた残差
信号e(n)に対して、マルチパルスを求めるかわりに
コードブックを用いベクl・ル量子化を行う。具体的な
方法を以下に示す。今、コードブックには2B種(Bは
音源のビット数)の音源信号ベクトル(コードベクトル
)が格納されているとする。コードブック中の一つの音
源信号ベクトルをc(n)とすると、音源信号ベクトル
は次式を最小化するようにコードブックから選択する。
信号e(n)に対して、マルチパルスを求めるかわりに
コードブックを用いベクl・ル量子化を行う。具体的な
方法を以下に示す。今、コードブックには2B種(Bは
音源のビット数)の音源信号ベクトル(コードベクトル
)が格納されているとする。コードブック中の一つの音
源信号ベクトルをc(n)とすると、音源信号ベクトル
は次式を最小化するようにコードブックから選択する。
E=Σ[{e(n)− g−c(n)*h(n))*w
(n)]2(8)n ここでgは音源信号ベクトルのゲインを示す。(8)式
を最小化するには、(8)式をgで偏微分してOとおき
次式を得る。
(n)]2(8)n ここでgは音源信号ベクトルのゲインを示す。(8)式
を最小化するには、(8)式をgで偏微分してOとおき
次式を得る。
g=Σew(n)ew(n)/Eew(n)ew(n)
(9)n ただし ew(n)=e(n)*h(n)
(10)ew(n)=c(n)*h(n)*w
(n) (11)である。(9)式
を(8)式に代入してとなる。ここで(12)式第1項
は定数なので、全ての音源信号ベクトルc(n)に対し
て第2項を計算しこれを最犬化するものを選択する。こ
のときのゲインは(9)式から求める。
(9)n ただし ew(n)=e(n)*h(n)
(10)ew(n)=c(n)*h(n)*w
(n) (11)である。(9)式
を(8)式に代入してとなる。ここで(12)式第1項
は定数なので、全ての音源信号ベクトルc(n)に対し
て第2項を計算しこれを最犬化するものを選択する。こ
のときのゲインは(9)式から求める。
コードブソクはあらかじめトレーニング信号を用いて学
習して作成しても良いし、例えばガウス件の乱数信号か
ら構成してもよい。前者の具体的な方法は、例えばMa
khou1氏らによる゛’VectorQuantiz
ation in Speech Coding,”
(Proc. IEEE, vol.73, 11.
1551−1588. 1985)(文献5)に記載さ
れている。
習して作成しても良いし、例えばガウス件の乱数信号か
ら構成してもよい。前者の具体的な方法は、例えばMa
khou1氏らによる゛’VectorQuantiz
ation in Speech Coding,”
(Proc. IEEE, vol.73, 11.
1551−1588. 1985)(文献5)に記載さ
れている。
また後者の方法は前記文献2等に記載されている。
(実施例)
第1図は第1の発明による音声符号化復号化方式の一実
施例を示すブロック図である。
施例を示すブロック図である。
図において、送信側では、入力端子100から音声信号
を入力し、1フレーム分(例えば20ms)の音声信号
をバッファメモリ110に格納する。
を入力し、1フレーム分(例えば20ms)の音声信号
をバッファメモリ110に格納する。
LPG、ピノチ計算回路130は、フレームの音声信号
のスペクトル特性を表すパラメータとして、Kパラメー
タを前記フレームの音声信号から衆知のLPC分析を行
いあらかじめ定められた次数Pだけ計算する。この具体
的な計算法については前記文献l、3のKパラメータ計
算回路を参照することができる。
のスペクトル特性を表すパラメータとして、Kパラメー
タを前記フレームの音声信号から衆知のLPC分析を行
いあらかじめ定められた次数Pだけ計算する。この具体
的な計算法については前記文献l、3のKパラメータ計
算回路を参照することができる。
なお、KパラメータはPARCOR係数と同一のもので
ある。次にKパラメータを予め定められた量子化ビット
数で量子化して得た符号1kをマルチプレクサ260へ
出力するとともに、これを復号化してさらに線形予測係
数ai’(i = 1〜M)に変換して重み付け回路2
00、インパルス応答計算回路170、合或フィルタ2
81へ出力する。Kパラメータの符号化、Kパラメータ
から線形予測係数への変換の方法については前記文献l
、3等を参照することかできる。さらにフレームの音声
信号から平均ピッチ周期Tを計算する。この方法として
は例えば自己相関法にもとづく方法が知られており、詳
細は前記文献1のピッチ抽出回路を参照することができ
る。また、この方法以外にも他の衆知な方法(例えば、
ケブストラム法、SIFT法、変相関法など)を用いる
ことができる。平均ピッチ周期Tをあらかじめ定められ
たビット数で量子化して得た符号をマルチプレクサ26
0へ出力するとともに、これを復号化して得た復号ピッ
チ周期T”をサブフレーム分割回路195、駆動音源復
元回路283、ゲイン、位相補正計算回路270へ出力
する。
ある。次にKパラメータを予め定められた量子化ビット
数で量子化して得た符号1kをマルチプレクサ260へ
出力するとともに、これを復号化してさらに線形予測係
数ai’(i = 1〜M)に変換して重み付け回路2
00、インパルス応答計算回路170、合或フィルタ2
81へ出力する。Kパラメータの符号化、Kパラメータ
から線形予測係数への変換の方法については前記文献l
、3等を参照することかできる。さらにフレームの音声
信号から平均ピッチ周期Tを計算する。この方法として
は例えば自己相関法にもとづく方法が知られており、詳
細は前記文献1のピッチ抽出回路を参照することができ
る。また、この方法以外にも他の衆知な方法(例えば、
ケブストラム法、SIFT法、変相関法など)を用いる
ことができる。平均ピッチ周期Tをあらかじめ定められ
たビット数で量子化して得た符号をマルチプレクサ26
0へ出力するとともに、これを復号化して得た復号ピッ
チ周期T”をサブフレーム分割回路195、駆動音源復
元回路283、ゲイン、位相補正計算回路270へ出力
する。
インパルス応答計算回路170は、前記線形予測係数a
i”を用いて、聴感重みずけを行った合戒フィルタのイ
ンパルス応答hw(n)を計算しこれを自己相関関数計
算回路180、相互相関関数計算回路210へ出力する
。
i”を用いて、聴感重みずけを行った合戒フィルタのイ
ンパルス応答hw(n)を計算しこれを自己相関関数計
算回路180、相互相関関数計算回路210へ出力する
。
自己相関関数計算回路180は前記インパルス応答の自
己相関関数Rhh(n)を予め定められた遅れ時間まで
計算して出力する。インパルス応答計算回路170、自
己相関関数計算回路180の動作は前記文献1、3等を
参照することができる。
己相関関数Rhh(n)を予め定められた遅れ時間まで
計算して出力する。インパルス応答計算回路170、自
己相関関数計算回路180の動作は前記文献1、3等を
参照することができる。
減算器190は、フレームの音声信号x(n)から合戒
フィルタ281の出力を1フレーム分減算し減算結果を
重み付け回路200へ出力する。
フィルタ281の出力を1フレーム分減算し減算結果を
重み付け回路200へ出力する。
重み付け回路200は前記減算結果をインパルス応答が
w(n)で表される聴感重み付けフィルタに通し、重み
付け信号xW(n)を得てこれを出力する。重み付けの
方法は前記文献1、3等を参照できる。
w(n)で表される聴感重み付けフィルタに通し、重み
付け信号xW(n)を得てこれを出力する。重み付けの
方法は前記文献1、3等を参照できる。
サブフレーム分割回路195は、復号ビソチ周期T′を
用いて、フレームの重み付け信号をT″毎のピッチ区間
に分割する。
用いて、フレームの重み付け信号をT″毎のピッチ区間
に分割する。
予測係数計算回路206は、過去の復元した駆動音源信
号■(n)とインパルス応答hw(n)、前記T′毎に
分割した重み付け信号のうちの予め定められた代表区間
(例えば第3図(C)の区間■)における重み付け信号
を用いて、前記(1)−(4)式に従い予測係数b、周
期Mを求める。そしてこれらの値を予め定められたビッ
ト数で量子化しb′、M′を求める。さらに予測係数計
算回路206は、予測音源信号v’(n)を次式に従い
計算し予測回路205へ出力する。
号■(n)とインパルス応答hw(n)、前記T′毎に
分割した重み付け信号のうちの予め定められた代表区間
(例えば第3図(C)の区間■)における重み付け信号
を用いて、前記(1)−(4)式に従い予測係数b、周
期Mを求める。そしてこれらの値を予め定められたビッ
ト数で量子化しb′、M′を求める。さらに予測係数計
算回路206は、予測音源信号v’(n)を次式に従い
計算し予測回路205へ出力する。
v’(n)=ド−v(n−M’)
(13)予測回路205は、v’(n)を用いて
次式に従い予測を行い残差信号を前記代表区間(第3図
(C)の区間■)について求め出力する。
(13)予測回路205は、v’(n)を用いて
次式に従い予測を行い残差信号を前記代表区間(第3図
(C)の区間■)について求め出力する。
ew(n)= xW(n)− v’(n)*hw(n)
(14)相互相関関数計算回路210
は、eW(n)とhw(n)を入力して相互相関関数Φ
xhを予め定められた遅れ時間まで計算し出力する。こ
の計算法は前記文献1、3等を参照できる。
(14)相互相関関数計算回路210
は、eW(n)とhw(n)を入力して相互相関関数Φ
xhを予め定められた遅れ時間まで計算し出力する。こ
の計算法は前記文献1、3等を参照できる。
マルチパルス計算回路220では、(14)式で求めた
、代表区間における差分信号に対して、相互相関関数、
自己相関関数を用いてマルチパルスの位置miと振幅g
iを求める。
、代表区間における差分信号に対して、相互相関関数、
自己相関関数を用いてマルチパルスの位置miと振幅g
iを求める。
パルス符号器225は、代表区間のマルチパルスの振幅
gi、位置miを予め定められたビット数で符号化して
マルチプレクサ260へ出力するとともに、これらを復
号化して加算器235へ出力する。
gi、位置miを予め定められたビット数で符号化して
マルチプレクサ260へ出力するとともに、これらを復
号化して加算器235へ出力する。
加算器235は、復号化したマルチパルスと、予測係数
計算回路206の出力である予測音源信号v’(n)を
加算して、代表区間における音源信号d(n)を求める
。
計算回路206の出力である予測音源信号v’(n)を
加算して、代表区間における音源信号d(n)を求める
。
次にゲイン、位相補正計算回路270は、作用の項で述
べたように、同一フレームの他のピンチ区間kにおける
音源信号復元のために、代表区間における音源信号d(
n)のゲイン補正係数Ck、位相補正係数dkを計算し
出力する。具体的な方法は前記文献1を参照できる。
べたように、同一フレームの他のピンチ区間kにおける
音源信号復元のために、代表区間における音源信号d(
n)のゲイン補正係数Ck、位相補正係数dkを計算し
出力する。具体的な方法は前記文献1を参照できる。
符号器230は、ゲイン補正係数Ck、位相補正係数d
kを予め定められたビノト数で符号化してマルチプレク
サ260へ出力する。さらに、これらを復号化レC駆動
音源復元回路283へ出力する。
kを予め定められたビノト数で符号化してマルチプレク
サ260へ出力する。さらに、これらを復号化レC駆動
音源復元回路283へ出力する。
駆動音源復元回路283は、平均ピッチ周期T”を用い
てフレームを前記サブフレーム分割回路195と同様な
方法で分割し、代表区間に前記音源信号d(n)を発生
し、代表区間以外のピノチ区間では、前記代表区間の音
源信号と復号化されたゲイン桶正係数、復号化された位
相補正係数を用いて、次式に従いフレーム全体の駆動音
源信号v(n)を復元ずる。
てフレームを前記サブフレーム分割回路195と同様な
方法で分割し、代表区間に前記音源信号d(n)を発生
し、代表区間以外のピノチ区間では、前記代表区間の音
源信号と復号化されたゲイン桶正係数、復号化された位
相補正係数を用いて、次式に従いフレーム全体の駆動音
源信号v(n)を復元ずる。
v(n) =Σck4(n −T’−dk)+d(n)
(15)k 合戊フィルタ281は、前記復元された駆動音源信号v
(n)を入力し、前記線形予測係数aiIを入力して1
フレーム分の合成音声信号を求めるとともに、次のフレ
ームへの影響信号をlフレーム分計算しこれを減算器1
90へ出力する。なお、影響信号の計算法は文献3等を
参照できる。
(15)k 合戊フィルタ281は、前記復元された駆動音源信号v
(n)を入力し、前記線形予測係数aiIを入力して1
フレーム分の合成音声信号を求めるとともに、次のフレ
ームへの影響信号をlフレーム分計算しこれを減算器1
90へ出力する。なお、影響信号の計算法は文献3等を
参照できる。
マルチブレクサ260は、代表区間の予測係数、周期、
マルチパルスの振幅、位置を表す符号、ゲイン補正係数
、位相補正係数、平均ピッチ周期の符号、Kパラメータ
を表す符号を組み合せて出力する。
マルチパルスの振幅、位置を表す符号、ゲイン補正係数
、位相補正係数、平均ピッチ周期の符号、Kパラメータ
を表す符号を組み合せて出力する。
以上で第1の発明の送信側の説明を終える。
受信側では、デマルチプレクサ290は端子285から
前記組み合わされた符号を入力し、マルチパルスを表す
符号、ゲイン、位相補正係数を表す符号、予測係数、周
期を表す符号、平均ピッチ周期を表す符号、Kパラメー
タを表す符号を分離して出力する。
前記組み合わされた符号を入力し、マルチパルスを表す
符号、ゲイン、位相補正係数を表す符号、予測係数、周
期を表す符号、平均ピッチ周期を表す符号、Kパラメー
タを表す符号を分離して出力する。
Kパラメータ、ピツチ復号回路330はKパラメータを
表す符号、ピソチ周期を表ず符号を復号して復号したピ
ッチ周期T′を駆動音源復元回路340へ出力する。
表す符号、ピソチ周期を表ず符号を復号して復号したピ
ッチ周期T′を駆動音源復元回路340へ出力する。
パルス復号回路300はマルチパルスを表す符号を復号
し、予め定められた代表区間にマルチパルスを発生して
加算器335へ出力する。
し、予め定められた代表区間にマルチパルスを発生して
加算器335へ出力する。
加算器335は、パルス復号回路300と予測回路34
5の出力である予測音源信号v’(n)を加算して代表
区間の音源信号d(n)を求める。
5の出力である予測音源信号v’(n)を加算して代表
区間の音源信号d(n)を求める。
ゲイン、位相補正係数復号回路315は、ゲインネ!1
}正係数、位相補正係数を表す符号を入力しこれらを復
号して出力する。
}正係数、位相補正係数を表す符号を入力しこれらを復
号して出力する。
係数復号回路325は、予測係数、周期を表す符号を復
号して復号した予測係数b′、復号した周期M′を出力
する。
号して復号した予測係数b′、復号した周期M′を出力
する。
予測回路345は、b”、M′を用いて過去のフレーム
の駆動音源信号v(n)から前記(l3)式にもとづき
予測音源信号v’(n)を計算し加算器335に出力す
る。
の駆動音源信号v(n)から前記(l3)式にもとづき
予測音源信号v’(n)を計算し加算器335に出力す
る。
駆動音源復元回路340は、加算器335の出力、復号
したピッチ周期T′、復号化したゲイン補正係数、復号
化した位相補正係数を入力する。そして、送信側の駆動
音源復元回路283と同一の動作を行い1フレームの駆
動音源信号v(n)を復元して出力する。
したピッチ周期T′、復号化したゲイン補正係数、復号
化した位相補正係数を入力する。そして、送信側の駆動
音源復元回路283と同一の動作を行い1フレームの駆
動音源信号v(n)を復元して出力する。
合戊フィルタ350は、復元したフレームの駆動音源信
号と線形予測係数ai+を入力して1フレーム分の合成
音声x(n)を計算して端子360を通して出力する。
号と線形予測係数ai+を入力して1フレーム分の合成
音声x(n)を計算して端子360を通して出力する。
以上で第1の発明の受信側の説明を終える。
第2図は第2の発明の一実施例を示すブロック図である
。第2図において第1図と同一の番号を付した購成要素
は第1図と同一の動作を行うので、説明は省略する。
。第2図において第1図と同一の番号を付した購成要素
は第1図と同一の動作を行うので、説明は省略する。
本実施例では、(1)−(4)及び(14)式に従い計
算した予測残差信号に対して、コードブソク520から
最適なコードベクトルを選択し、コードベクトルのゲイ
ンgを計算する。ここで(14)式で求めたew(n)
に対して、(8)式を最小化するようにコードベクトル
c(n)を選択しゲインgを求める。今、コードブソク
のコードベクトルの次元数をL、コードベクトルの種類
を2Bとする。また、コードブックは前記文献2のよう
に、ガウス性のランダム信号から{1ナ或されるものと
する。
算した予測残差信号に対して、コードブソク520から
最適なコードベクトルを選択し、コードベクトルのゲイ
ンgを計算する。ここで(14)式で求めたew(n)
に対して、(8)式を最小化するようにコードベクトル
c(n)を選択しゲインgを求める。今、コードブソク
のコードベクトルの次元数をL、コードベクトルの種類
を2Bとする。また、コードブックは前記文献2のよう
に、ガウス性のランダム信号から{1ナ或されるものと
する。
相関関数計算回路505は、次式に従い相互相関関数Φ
、自己相関関数Rを計算する。
、自己相関関数Rを計算する。
Φ=ΣeW(n)〜(n)(16)
n
R=Σ〜(n)〜(n) (1
7)n ここで、eW(n)、e,(n)は(10)、(11)
式に従い求める。また(16)式、(17)式は、(9
)式の分子、分母の項にそれぞれ相当する。(l6)、
(17)式は全てのコードベクトルに対して計算し、各
コードベクトルに対応したΦ、Rの値をコードブック選
択回路500へ出力する。
7)n ここで、eW(n)、e,(n)は(10)、(11)
式に従い求める。また(16)式、(17)式は、(9
)式の分子、分母の項にそれぞれ相当する。(l6)、
(17)式は全てのコードベクトルに対して計算し、各
コードベクトルに対応したΦ、Rの値をコードブック選
択回路500へ出力する。
コードブック選択回路500は、前記(12)式の第2
項を最大化するコードベクトルを選択する。(l2)式
第2項は次式のように書き直せる。
項を最大化するコードベクトルを選択する。(l2)式
第2項は次式のように書き直せる。
D=Φ2/R(18)
従って(18)式を最犬化するコードベクトルを選択す
ればよい。選択されたコードベクトルに対してゲインg
は下式から計算できる。
ればよい。選択されたコードベクトルに対してゲインg
は下式から計算できる。
g=o/R (19
)コードブック選択回路500は、選択されたコードブ
ックのインデクスを示す情報をマルチブレクサ260へ
出力し、求めたゲインgをゲイン符号器510へ出力す
る。
)コードブック選択回路500は、選択されたコードブ
ックのインデクスを示す情報をマルチブレクサ260へ
出力し、求めたゲインgをゲイン符号器510へ出力す
る。
ゲイン符号器510は、ゲインを予め定められた量子化
ビット数で量子化して符号をマルチプレクサ260へ出
力するとともに、復号した値g′を用いて、選択された
コードベクトルによる音源信号z(n)を下式に従い求
め加算器525へ出力する。
ビット数で量子化して符号をマルチプレクサ260へ出
力するとともに、復号した値g′を用いて、選択された
コードベクトルによる音源信号z(n)を下式に従い求
め加算器525へ出力する。
z(n) = g’−c(n)
(20)加算器525は、(13)式による予
測音源信号v’(n)とz(n)を次式に従い加算して
代表区間の音源信号d(n)を求め、駆動音源復号回路
283、ゲイン、位相補正計算回路270へ出力する。
(20)加算器525は、(13)式による予
測音源信号v’(n)とz(n)を次式に従い加算して
代表区間の音源信号d(n)を求め、駆動音源復号回路
283、ゲイン、位相補正計算回路270へ出力する。
d(n)= v’(n) + z(n)
(21)以上で本発明の実施例の送信側の
説明を終える。
(21)以上で本発明の実施例の送信側の
説明を終える。
次に受信側の説明を行う。ゲイン復号回路530は、ゲ
インを表す符号を復号化して復号化ゲインg′を出力す
る。発生回路540は、選択されたコードブックのイン
デクスを表す符号を入力し、コートブック520から前
記インデクスに従いコードベクトルc(n)を選択する
。そして復号化ゲインg′を用いて(20)式に従い音
源信号z(n)を発生し加算器550へ出力する。
インを表す符号を復号化して復号化ゲインg′を出力す
る。発生回路540は、選択されたコードブックのイン
デクスを表す符号を入力し、コートブック520から前
記インデクスに従いコードベクトルc(n)を選択する
。そして復号化ゲインg′を用いて(20)式に従い音
源信号z(n)を発生し加算器550へ出力する。
加算器550は、送信側の加算器525と同一の動作を
行い、z(n)と予測回路345の出力である子in1
1音源信号v’(n)を(21)式に従い加算して代表
区間の音源信号d(n)を求めて駆動音源復元回路34
0へ出力する。
行い、z(n)と予測回路345の出力である子in1
1音源信号v’(n)を(21)式に従い加算して代表
区間の音源信号d(n)を求めて駆動音源復元回路34
0へ出力する。
以上で第2の発明の実施例の受信側の説明を終える。
上述した実施例はあくまで本発明の一構或に過ぎずその
変形例も種々考えられる。
変形例も種々考えられる。
第1の発明の実施例では、代表区間でピンチ予測残差に
対して求めたマルチパルスの振幅、位置はスカラ量子化
(SQ)Lたが、さらに情報量を低減するために、ベク
トル量子化(VQ)Lてもよい。例えば、位置のみをV
QLて振幅はSQ、あるいは振幅をSQt,て位置はV
Q、あるいは振幅、位置ともにVQずる組合せが考えら
れる。位置のVQの具体的な方法については、例えばR
. Zinser氏らによる“4800and 720
0 b表す/see Hybrid Codebook
MultipulseCoding,”(ICASS
P, pp. 747−750.1989X文献6)等
を参照できる。
対して求めたマルチパルスの振幅、位置はスカラ量子化
(SQ)Lたが、さらに情報量を低減するために、ベク
トル量子化(VQ)Lてもよい。例えば、位置のみをV
QLて振幅はSQ、あるいは振幅をSQt,て位置はV
Q、あるいは振幅、位置ともにVQずる組合せが考えら
れる。位置のVQの具体的な方法については、例えばR
. Zinser氏らによる“4800and 720
0 b表す/see Hybrid Codebook
MultipulseCoding,”(ICASS
P, pp. 747−750.1989X文献6)等
を参照できる。
また、第1の発明の実施例では、代表区間以外のピッチ
区間では、ゲイン補正係数Ckと位相補正係数dkを求
めて伝送したが、復号化した平均ピッチ周期T′を隣接
のピッチ周期を用いてピンチ区間毎に補間することによ
り位相補正係数を伝送しない構戊とすることもできる。
区間では、ゲイン補正係数Ckと位相補正係数dkを求
めて伝送したが、復号化した平均ピッチ周期T′を隣接
のピッチ周期を用いてピンチ区間毎に補間することによ
り位相補正係数を伝送しない構戊とすることもできる。
またゲイン補正係数はピンチ区間毎に伝送するのではな
くてピッチ区間毎に求めたゲイン補正係数の値を最小2
乗曲線あるいは最小2乗直線で近似して、前記曲線ある
いは直線の係数を符号化して伝送するような構戒にして
もよい。これらの方法は任意の組合せにより用いること
ができる。これらの構成より補正情報の伝送のための情
報量を低減することができる。
くてピッチ区間毎に求めたゲイン補正係数の値を最小2
乗曲線あるいは最小2乗直線で近似して、前記曲線ある
いは直線の係数を符号化して伝送するような構戒にして
もよい。これらの方法は任意の組合せにより用いること
ができる。これらの構成より補正情報の伝送のための情
報量を低減することができる。
また位相補正係数として、例えばOno, Ozawa
氏ら に よ る”2.4kbps P表すch Pr
ediction Multi−pulseSpeec
h Coding”と題した論文(Proc. ICA
SSP S4.9.1988)(文献7)に記載されて
いるように、フレームの端で線形位相項1を求め、これ
を各ピッチ区間に分配し、ピッチ区間毎には位相補正係
数を求めない構或とすることもできる。これ以外にも、
ピッチ区間毎に求めた位相補正係数の値を最小2乗直線
あるいは最小2乗曲線等で近似して、その係数を符号化
して伝送するようにしてもよい。
氏ら に よ る”2.4kbps P表すch Pr
ediction Multi−pulseSpeec
h Coding”と題した論文(Proc. ICA
SSP S4.9.1988)(文献7)に記載されて
いるように、フレームの端で線形位相項1を求め、これ
を各ピッチ区間に分配し、ピッチ区間毎には位相補正係
数を求めない構或とすることもできる。これ以外にも、
ピッチ区間毎に求めた位相補正係数の値を最小2乗直線
あるいは最小2乗曲線等で近似して、その係数を符号化
して伝送するようにしてもよい。
また、第1の発明の実施例では、文献1のように、フレ
ームの音声信号の特徴に応じて異なる音源信号を用いる
ようにすることもできる。例えば、音声信号を母音性、
鼻音性、摩擦性、破裂性などに分類し、母音性区間に第
lの発明による構或を用いるようにすることもできる。
ームの音声信号の特徴に応じて異なる音源信号を用いる
ようにすることもできる。例えば、音声信号を母音性、
鼻音性、摩擦性、破裂性などに分類し、母音性区間に第
lの発明による構或を用いるようにすることもできる。
また、第1、第2の発明の実施例では、スペクトルパラ
メータとしてKパラメータを符号化し、その分析法とし
てLPG分析を用いたが、スペクトルパラメータとして
は他の衆知なパラメータ、例えばLSP, LPCケプ
ストラム、ケプストラム、改良ケプスドラム、一般化ケ
プストラム、メルケプストラムなどを用いることもでき
る。また各パラメータに最適な分析法を用いることがで
きる。
メータとしてKパラメータを符号化し、その分析法とし
てLPG分析を用いたが、スペクトルパラメータとして
は他の衆知なパラメータ、例えばLSP, LPCケプ
ストラム、ケプストラム、改良ケプスドラム、一般化ケ
プストラム、メルケプストラムなどを用いることもでき
る。また各パラメータに最適な分析法を用いることがで
きる。
また、第1、2の発明の実施例において、予測を行うと
きの代表区間をフレーム内の予め定められたピノチ区間
に固定したが、フレーム内の全てのピッチ区間の各々に
ついて、予測から、予測残差に対する音源信号の計算、
さらに他のピッチ区間でのゲイン、位相補正係数の計算
を行い、これにより再生したフレームの音声信号と入力
信号との重み付け誤差電力を計算し、これを最小にする
ピノチ区間を代表区間として選択するような構成として
もよい。具体的な方法は前記文献1を参照できる。この
ような構或とすると、演算量は増大し、代表区間のフレ
ーム内の位置を示す情報を追加伝送する必要があるが、
特性はさらに向上する。
きの代表区間をフレーム内の予め定められたピノチ区間
に固定したが、フレーム内の全てのピッチ区間の各々に
ついて、予測から、予測残差に対する音源信号の計算、
さらに他のピッチ区間でのゲイン、位相補正係数の計算
を行い、これにより再生したフレームの音声信号と入力
信号との重み付け誤差電力を計算し、これを最小にする
ピノチ区間を代表区間として選択するような構成として
もよい。具体的な方法は前記文献1を参照できる。この
ような構或とすると、演算量は増大し、代表区間のフレ
ーム内の位置を示す情報を追加伝送する必要があるが、
特性はさらに向上する。
また、サブフレーム分割回路195において、フレーム
をピンチ周期に等しい長さのピッチ区間に分割したが、
予め定められた長さ(例えば5ms)ごとに分割するよ
うにすることもできる。このような構戊ではピッチ周期
の抽出が不要となり演算量が低減するが、音質は若干低
下する。
をピンチ周期に等しい長さのピッチ区間に分割したが、
予め定められた長さ(例えば5ms)ごとに分割するよ
うにすることもできる。このような構戊ではピッチ周期
の抽出が不要となり演算量が低減するが、音質は若干低
下する。
また、演算量を低減するために、送信側では影響信号の
計算を省略することもできる。これによって、送信側に
おける駆動信号復元回路283、合或フィルタ281,
減算器190は不要となり演算量低減が可能となるが、
音質は低下する。
計算を省略することもできる。これによって、送信側に
おける駆動信号復元回路283、合或フィルタ281,
減算器190は不要となり演算量低減が可能となるが、
音質は低下する。
また、受信側で合戊フィルタ350の後ろに、量子化雑
音を整形することにより聴覚的にきき易くするために、
ビノチとスペクトル包絡の少なくとも1つについて動作
する適応形ポストフィルタを付加してもよい。適応型ポ
ストフィルタの構成については、例えば、Kroon氏
らによる”A Class ofAnalysis−b
y−synthesis Predictive Co
ders for HighQual表すy Spee
ch Coding at Rates betwee
n 4.8 and16kb/s,” (IEEE J
SAC, vol. 6, 2, 353−363,
1988X文献8)等を参照できる。
音を整形することにより聴覚的にきき易くするために、
ビノチとスペクトル包絡の少なくとも1つについて動作
する適応形ポストフィルタを付加してもよい。適応型ポ
ストフィルタの構成については、例えば、Kroon氏
らによる”A Class ofAnalysis−b
y−synthesis Predictive Co
ders for HighQual表すy Spee
ch Coding at Rates betwee
n 4.8 and16kb/s,” (IEEE J
SAC, vol. 6, 2, 353−363,
1988X文献8)等を参照できる。
なお、デジタル信号処理の分野でよく知られているよう
に、自己相関関数は周波数軸上でバワスベクトルに、相
互相関関数はクロスパワスペクトルに対応しているので
、これらから計算することもできる。これらの計算法に
ついては、Oppenheim氏らによる”Dig表す
al Signal Processing”(Pre
ntice−Hall, 1975)と題した単行本(
文献9)を参照できる。
に、自己相関関数は周波数軸上でバワスベクトルに、相
互相関関数はクロスパワスペクトルに対応しているので
、これらから計算することもできる。これらの計算法に
ついては、Oppenheim氏らによる”Dig表す
al Signal Processing”(Pre
ntice−Hall, 1975)と題した単行本(
文献9)を参照できる。
(発明の効果)
以上述べたように、本発明によれば、フレームをピッチ
煽期毎に分割し、一つのピッチ区間(代表区間)につい
て過去の音源信号から予測を行い予ifllJ誤差をマ
ルチパルスか、音源信号ベクトル(コードベクトル)で
良好に表すことにより、代表区間の音源信号をきわめて
効率的に表している。さらに同一フレームの他のピッチ
区間では、代表区間の音源信号のゲイン、位相を補正し
ながらフレームの音源信号を復元しているので、きわめ
て少ない音源情報量でフレームの音声の音源信号を良好
に表すことが可能となる。従って従来方式に比べて、4
.8kb/s以下のピットレートで、良好な音質の符号
化再生音声を得ることができるという大きな効果がある
。
煽期毎に分割し、一つのピッチ区間(代表区間)につい
て過去の音源信号から予測を行い予ifllJ誤差をマ
ルチパルスか、音源信号ベクトル(コードベクトル)で
良好に表すことにより、代表区間の音源信号をきわめて
効率的に表している。さらに同一フレームの他のピッチ
区間では、代表区間の音源信号のゲイン、位相を補正し
ながらフレームの音源信号を復元しているので、きわめ
て少ない音源情報量でフレームの音声の音源信号を良好
に表すことが可能となる。従って従来方式に比べて、4
.8kb/s以下のピットレートで、良好な音質の符号
化再生音声を得ることができるという大きな効果がある
。
第1図は第1の発明による音声符号化復号化方式の一実
施例を示すブロソク図、第2図は第2の発明による音声
符号化復号化方式の一実施例を示すブロック図、第3図
は本発明の作用を説明するための図である。 図において、110はバノファメモリ、130はLPC
、ピッチ計算回路、140は量子化回路、170はイン
パルス応答計算回路、180は自己相関関数計算回路、
195はサブフレーム分割回路、200は重み付け回路
、205、345は予厠回路、206は予測係数計算回
路、220はマルチパルス計算回路、225はパルス符
号化回路、230は符号器、235は加算器、260は
マルチプレクサ、270はゲイン、位相補正係数計算回
路、281、350は合威フィルタ、283、340は
駆動音源復元回路、290はデマルチプレクサ、300
はパルス復号回路、315はゲイン、位相補正係数復号
回路、325は係数復号回路、330はKパラメータ、
ビッチ復号回路、500はコードブソク選択回路、50
5は相関関数計算回路、520はコードブック、である
。
施例を示すブロソク図、第2図は第2の発明による音声
符号化復号化方式の一実施例を示すブロック図、第3図
は本発明の作用を説明するための図である。 図において、110はバノファメモリ、130はLPC
、ピッチ計算回路、140は量子化回路、170はイン
パルス応答計算回路、180は自己相関関数計算回路、
195はサブフレーム分割回路、200は重み付け回路
、205、345は予厠回路、206は予測係数計算回
路、220はマルチパルス計算回路、225はパルス符
号化回路、230は符号器、235は加算器、260は
マルチプレクサ、270はゲイン、位相補正係数計算回
路、281、350は合威フィルタ、283、340は
駆動音源復元回路、290はデマルチプレクサ、300
はパルス復号回路、315はゲイン、位相補正係数復号
回路、325は係数復号回路、330はKパラメータ、
ビッチ復号回路、500はコードブソク選択回路、50
5は相関関数計算回路、520はコードブック、である
。
Claims (2)
- (1)入力した離散的な音声信号からスペクトル包絡を
表すスペクトルパラメータとピッチを表すピッチパラメ
ータを求め、前記フレーム区間を前記ピッチパラメータ
に応じた小区間に分割し、前記小区間の内の1つの区間
において過去の音源信号をもとに予測して求めた残差信
号に対してマルチパルスを求めて前記小区間の音源信号
を求め、前記フレーム内の他のピッチ区間では前記音源
信号に関して振幅あるいは位相の少なくとも一方を補正
するための補正情報を求めて出力することを特徴とする
音声符号化方式。 - (2)入力した離散的な音声信号からスペクトル包絡を
表すスペクトルパラメータとピッチを表すピッチパラメ
ータを求め、前記フレーム区間を前記ピッチパラメータ
に応じた小区間に分割し、前記小区間の内の1つの区間
において過去の音源信号をもとに予測して求めた残差信
号に対して予め定められた種類の音源信号が格納された
コードブックから一種類の音源信号を選択することによ
り前記小区間の音源信号を求め、前記フレーム内の他の
ピッチ区間では前記音源信号に関して振幅あるいは位相
の少なくとも一方を補正するための補正情報を求めて出
力することを特徴とする音声符号化方式。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1189084A JP2940005B2 (ja) | 1989-07-20 | 1989-07-20 | 音声符号化装置 |
| DE69023402T DE69023402T2 (de) | 1989-07-20 | 1990-07-19 | Verfahren zur Sprachkodierung und -dekodierung. |
| EP90113866A EP0409239B1 (en) | 1989-07-20 | 1990-07-19 | Speech coding/decoding method |
| US07/554,999 US5142584A (en) | 1989-07-20 | 1990-07-20 | Speech coding/decoding method having an excitation signal |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1189084A JP2940005B2 (ja) | 1989-07-20 | 1989-07-20 | 音声符号化装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0353300A true JPH0353300A (ja) | 1991-03-07 |
| JP2940005B2 JP2940005B2 (ja) | 1999-08-25 |
Family
ID=16235051
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1189084A Expired - Fee Related JP2940005B2 (ja) | 1989-07-20 | 1989-07-20 | 音声符号化装置 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US5142584A (ja) |
| EP (1) | EP0409239B1 (ja) |
| JP (1) | JP2940005B2 (ja) |
| DE (1) | DE69023402T2 (ja) |
Families Citing this family (176)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5694519A (en) * | 1992-02-18 | 1997-12-02 | Lucent Technologies, Inc. | Tunable post-filter for tandem coders |
| US5255343A (en) * | 1992-06-26 | 1993-10-19 | Northern Telecom Limited | Method for detecting and masking bad frames in coded speech signals |
| EP0654909A4 (en) * | 1993-06-10 | 1997-09-10 | Oki Electric Ind Co Ltd | PREDICTIVE LINEAR ENCODER-ENCODER WITH CODES EXCITATION. |
| JP2591430B2 (ja) * | 1993-06-30 | 1997-03-19 | 日本電気株式会社 | ベクトル量子化装置 |
| BE1007428A3 (nl) * | 1993-08-02 | 1995-06-13 | Philips Electronics Nv | Transmissiesysteem met reconstructie van ontbrekende signaalmonsters. |
| JP2906968B2 (ja) * | 1993-12-10 | 1999-06-21 | 日本電気株式会社 | マルチパルス符号化方法とその装置並びに分析器及び合成器 |
| JPH07261797A (ja) * | 1994-03-18 | 1995-10-13 | Mitsubishi Electric Corp | 信号符号化装置及び信号復号化装置 |
| JP3087591B2 (ja) * | 1994-12-27 | 2000-09-11 | 日本電気株式会社 | 音声符号化装置 |
| FR2729247A1 (fr) * | 1995-01-06 | 1996-07-12 | Matra Communication | Procede de codage de parole a analyse par synthese |
| DE69615870T2 (de) * | 1995-01-17 | 2002-04-04 | Nec Corp., Tokio/Tokyo | Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen |
| JPH08263099A (ja) * | 1995-03-23 | 1996-10-11 | Toshiba Corp | 符号化装置 |
| JP3196595B2 (ja) * | 1995-09-27 | 2001-08-06 | 日本電気株式会社 | 音声符号化装置 |
| US5960386A (en) * | 1996-05-17 | 1999-09-28 | Janiszewski; Thomas John | Method for adaptively controlling the pitch gain of a vocoder's adaptive codebook |
| JP3335841B2 (ja) * | 1996-05-27 | 2002-10-21 | 日本電気株式会社 | 信号符号化装置 |
| DE69737012T2 (de) * | 1996-08-02 | 2007-06-06 | Matsushita Electric Industrial Co., Ltd., Kadoma | Sprachkodierer, sprachdekodierer und aufzeichnungsmedium dafür |
| US6192336B1 (en) | 1996-09-30 | 2001-02-20 | Apple Computer, Inc. | Method and system for searching for an optimal codevector |
| US5794182A (en) * | 1996-09-30 | 1998-08-11 | Apple Computer, Inc. | Linear predictive speech encoding systems with efficient combination pitch coefficients computation |
| EP2154680B1 (en) | 1997-12-24 | 2017-06-28 | BlackBerry Limited | Method and apparatus for speech coding |
| JP4008607B2 (ja) * | 1999-01-22 | 2007-11-14 | 株式会社東芝 | 音声符号化/復号化方法 |
| EP1221694B1 (en) * | 1999-09-14 | 2006-07-19 | Fujitsu Limited | Voice encoder/decoder |
| US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
| JP3582589B2 (ja) * | 2001-03-07 | 2004-10-27 | 日本電気株式会社 | 音声符号化装置及び音声復号化装置 |
| KR100464369B1 (ko) * | 2001-05-23 | 2005-01-03 | 삼성전자주식회사 | 음성 부호화 시스템의 여기 코드북 탐색 방법 |
| ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
| US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
| US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
| JP4827661B2 (ja) * | 2006-08-30 | 2011-11-30 | 富士通株式会社 | 信号処理方法及び装置 |
| US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
| KR101292771B1 (ko) * | 2006-11-24 | 2013-08-16 | 삼성전자주식회사 | 오디오 신호의 오류은폐방법 및 장치 |
| US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
| US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
| US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
| US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
| US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
| US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
| US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
| US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
| US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
| US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
| US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
| US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
| US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
| US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
| WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
| CN101604525B (zh) * | 2008-12-31 | 2011-04-06 | 华为技术有限公司 | 基音增益获取方法、装置及编码器、解码器 |
| US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
| US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
| US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
| US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
| US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
| US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
| US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
| US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
| US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
| US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
| US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
| US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
| US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
| US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
| US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
| US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| DE112011100329T5 (de) | 2010-01-25 | 2012-10-31 | Andrew Peter Nelson Jerram | Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform |
| US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
| US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
| US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
| US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
| US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
| US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
| US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
| US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
| US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
| US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
| US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
| US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
| US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
| US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
| US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
| US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
| US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
| US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
| US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
| WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
| US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
| US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
| CN104584123B (zh) * | 2012-08-29 | 2018-02-13 | 日本电信电话株式会社 | 解码方法、以及解码装置 |
| US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
| US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
| US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
| KR102698417B1 (ko) | 2013-02-07 | 2024-08-26 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
| US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
| US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
| US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
| US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
| US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
| US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
| KR102057795B1 (ko) | 2013-03-15 | 2019-12-19 | 애플 인크. | 콘텍스트-민감성 방해 처리 |
| AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
| US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
| US11151899B2 (en) | 2013-03-15 | 2021-10-19 | Apple Inc. | User training by intelligent digital assistant |
| WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
| US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
| WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
| WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
| US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
| KR101959188B1 (ko) | 2013-06-09 | 2019-07-02 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
| AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
| US10791216B2 (en) | 2013-08-06 | 2020-09-29 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
| US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
| US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
| US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
| US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
| US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
| US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
| US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
| US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
| US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
| US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
| US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
| AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
| US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
| US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
| EP2963648A1 (en) | 2014-07-01 | 2016-01-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio processor and method for processing an audio signal using vertical phase correction |
| US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
| US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
| US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
| US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
| US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
| US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
| US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
| US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
| US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
| US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
| US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
| US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
| US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
| US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
| US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
| US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
| US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
| US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
| US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
| US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
| US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
| US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
| US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
| US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
| US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
| US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
| US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
| US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
| US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
| DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
| US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
| US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
| US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
| US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
| DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
| DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
| DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
| DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
| US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
| DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
| DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS61148500A (ja) * | 1984-12-21 | 1986-07-07 | 日本電気株式会社 | 音声信号符号化方法とその装置 |
| JPS6238500A (ja) * | 1985-08-13 | 1987-02-19 | 日本電気株式会社 | 高能率音声符号化方式とその装置 |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS59116794A (ja) * | 1982-12-24 | 1984-07-05 | 日本電気株式会社 | 音声符号化・復号化装置 |
| CA1255802A (en) * | 1984-07-05 | 1989-06-13 | Kazunori Ozawa | Low bit-rate pattern encoding and decoding with a reduced number of excitation pulses |
| JPS61134000A (ja) * | 1984-12-05 | 1986-06-21 | 株式会社日立製作所 | 音声分析合成方式 |
| FR2579356B1 (fr) * | 1985-03-22 | 1987-05-07 | Cit Alcatel | Procede de codage a faible debit de la parole a signal multi-impulsionnel d'excitation |
| NL8500843A (nl) * | 1985-03-22 | 1986-10-16 | Koninkl Philips Electronics Nv | Multipuls-excitatie lineair-predictieve spraakcoder. |
| US4944013A (en) * | 1985-04-03 | 1990-07-24 | British Telecommunications Public Limited Company | Multi-pulse speech coder |
| GB8621932D0 (en) * | 1986-09-11 | 1986-10-15 | British Telecomm | Speech coding |
| US4896361A (en) * | 1988-01-07 | 1990-01-23 | Motorola, Inc. | Digital speech coder having improved vector excitation source |
| JP2829978B2 (ja) * | 1988-08-24 | 1998-12-02 | 日本電気株式会社 | 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置 |
-
1989
- 1989-07-20 JP JP1189084A patent/JP2940005B2/ja not_active Expired - Fee Related
-
1990
- 1990-07-19 EP EP90113866A patent/EP0409239B1/en not_active Expired - Lifetime
- 1990-07-19 DE DE69023402T patent/DE69023402T2/de not_active Expired - Fee Related
- 1990-07-20 US US07/554,999 patent/US5142584A/en not_active Expired - Lifetime
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS61148500A (ja) * | 1984-12-21 | 1986-07-07 | 日本電気株式会社 | 音声信号符号化方法とその装置 |
| JPS6238500A (ja) * | 1985-08-13 | 1987-02-19 | 日本電気株式会社 | 高能率音声符号化方式とその装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2940005B2 (ja) | 1999-08-25 |
| EP0409239A3 (en) | 1991-08-07 |
| EP0409239B1 (en) | 1995-11-08 |
| EP0409239A2 (en) | 1991-01-23 |
| US5142584A (en) | 1992-08-25 |
| DE69023402T2 (de) | 1996-04-04 |
| DE69023402D1 (de) | 1995-12-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH0353300A (ja) | 音声符号化装置 | |
| JP3196595B2 (ja) | 音声符号化装置 | |
| JP3180762B2 (ja) | 音声符号化装置及び音声復号化装置 | |
| JP3582589B2 (ja) | 音声符号化装置及び音声復号化装置 | |
| JP2970407B2 (ja) | 音声の励振信号符号化装置 | |
| JP3531780B2 (ja) | 音声符号化方法および復号化方法 | |
| JP2829978B2 (ja) | 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置 | |
| JP3319396B2 (ja) | 音声符号化装置ならびに音声符号化復号化装置 | |
| JP2956068B2 (ja) | 音声符号化復号化方式 | |
| JP2946525B2 (ja) | 音声符号化方式 | |
| JP3003531B2 (ja) | 音声符号化装置 | |
| JP3299099B2 (ja) | 音声符号化装置 | |
| KR0155798B1 (ko) | 음성신호 부호화 및 복호화 방법 | |
| JPH08234795A (ja) | 音声符号化装置 | |
| JP2001142499A (ja) | 音声符号化装置ならびに音声復号化装置 | |
| JP3089967B2 (ja) | 音声符号化装置 | |
| JP3047761B2 (ja) | 音声符号化装置 | |
| JP2853170B2 (ja) | 音声符号化復号化方式 | |
| JP3192051B2 (ja) | 音声符号化装置 | |
| JP3063087B2 (ja) | 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置 | |
| JP2946528B2 (ja) | 音声符号化復号化方法及びその装置 | |
| JP2992998B2 (ja) | 音声符号化復号化装置 | |
| EP1717796B1 (en) | Method for converting code and code conversion apparatus therefor | |
| JP2808841B2 (ja) | 音声符号化方式 | |
| JP3071800B2 (ja) | 適応ポストフィルタ |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080618 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090618 Year of fee payment: 10 |
|
| LAPS | Cancellation because of no payment of annual fees |