JPH0664480B2 - 音声信号圧縮方法及びメモリ書き込み方法 - Google Patents
音声信号圧縮方法及びメモリ書き込み方法Info
- Publication number
- JPH0664480B2 JPH0664480B2 JP3130683A JP13068391A JPH0664480B2 JP H0664480 B2 JPH0664480 B2 JP H0664480B2 JP 3130683 A JP3130683 A JP 3130683A JP 13068391 A JP13068391 A JP 13068391A JP H0664480 B2 JPH0664480 B2 JP H0664480B2
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- signal
- digital audio
- power spectrum
- register
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
【0001】
【産業上の利用分野】本発明は、音声信号の圧縮方法及
び圧縮された音声信号をメモリに書き込む方法に関す
る。
び圧縮された音声信号をメモリに書き込む方法に関す
る。
【0002】
【従来の技術】従来、音声信号のデジタル圧縮方法とし
て、入力したアナログ音声信号をA/D変換器により1
6ビツトのデジタルデータとした後、隣接サンプル値の
差が小さい性質を利用して差分PCMとしたり、出現確
率の大きいものほど短い符号とする不等長符号コーディ
ング等が知られている。
て、入力したアナログ音声信号をA/D変換器により1
6ビツトのデジタルデータとした後、隣接サンプル値の
差が小さい性質を利用して差分PCMとしたり、出現確
率の大きいものほど短い符号とする不等長符号コーディ
ング等が知られている。
【0003】ところで、音声信号を圧縮・伸長した場
合、何らかの信号の劣化を生じることは明らかであり、
圧縮率に対する音声信号の劣化が小さい方法が望まし
い。
合、何らかの信号の劣化を生じることは明らかであり、
圧縮率に対する音声信号の劣化が小さい方法が望まし
い。
【0004】また劣化についても、原音と圧縮・伸長後
の音声信号とが、物理的に劣化が小さいという場合と、
人間の聴感上劣化が小さいという場合とが存在する。後
者の場合は、物理的には原音と異なり、聴感上は同一で
あるという場合である。しかしながら、音声信号の圧縮
・伸長の目的を鑑みれば、聴感上の問題に集約され、聴
感上問題が生じなければ、圧縮・伸長の目的は達成され
たと言える。
の音声信号とが、物理的に劣化が小さいという場合と、
人間の聴感上劣化が小さいという場合とが存在する。後
者の場合は、物理的には原音と異なり、聴感上は同一で
あるという場合である。しかしながら、音声信号の圧縮
・伸長の目的を鑑みれば、聴感上の問題に集約され、聴
感上問題が生じなければ、圧縮・伸長の目的は達成され
たと言える。
【0005】このことは、特に音声認識において、特徴
点の同一という概念で表される。即ち特徴点が同一であ
るならば、それらの音声は聴感としては同一として認識
される。よって、聴感上の同一性を維持したまま音声信
号を圧縮するということが、原音の特徴を忠実に保存し
ていることとなり、より好ましい圧縮方法であると言え
る。
点の同一という概念で表される。即ち特徴点が同一であ
るならば、それらの音声は聴感としては同一として認識
される。よって、聴感上の同一性を維持したまま音声信
号を圧縮するということが、原音の特徴を忠実に保存し
ていることとなり、より好ましい圧縮方法であると言え
る。
【0006】従来は物理的に劣化が小さい点に着目した
圧縮・伸長方法が主であり、聴感上の特徴点を残して圧
縮・伸長するという技術を開示した例はなかった。
圧縮・伸長方法が主であり、聴感上の特徴点を残して圧
縮・伸長するという技術を開示した例はなかった。
【0007】また記憶媒体に音声信号を記憶させる場合
にも、聴感上の同一性を維持したまま音声信号を圧縮し
て記憶することが、結果的には読み出し時に聴感上は良
好となることが明らかである。特に音声認識の分野で
は、比較計算において、特徴点同士の比較で済み、認識
速度の高速化が見込める。
にも、聴感上の同一性を維持したまま音声信号を圧縮し
て記憶することが、結果的には読み出し時に聴感上は良
好となることが明らかである。特に音声認識の分野で
は、比較計算において、特徴点同士の比較で済み、認識
速度の高速化が見込める。
【0008】
【発明が解決しようとする課題】本発明は、上述のよう
な点に鑑み、聴感上の特徴点を残して圧縮・伸長処理す
ることで、聴感上の問題を生じさせないようにし、また
メモリに書き込む際にも良好な聴感特性を得ることがで
き、音声認識の分野では認識速度の高速化が可能な音声
信号の圧縮方法及び圧縮された音声信号をメモリに書き
込む方法の提供を目的とする。
な点に鑑み、聴感上の特徴点を残して圧縮・伸長処理す
ることで、聴感上の問題を生じさせないようにし、また
メモリに書き込む際にも良好な聴感特性を得ることがで
き、音声認識の分野では認識速度の高速化が可能な音声
信号の圧縮方法及び圧縮された音声信号をメモリに書き
込む方法の提供を目的とする。
【0009】
【課題を解決するための手段】本発明に係る音声信号圧
縮方法は、デジタル音声信号を順次レジスタに供給し、
このレジスタより所定時間毎にデジタル音声信号を取り
出し、この取り出されたデジタル音声信号を直交変換す
ることによりパワースペクトル信号を形成し、このパワ
ースペクトル信号を聴感特性に合わせた周波数メルスケ
ールに応じて所定の帯域に分割することにより、上述の
課題を解決する。
縮方法は、デジタル音声信号を順次レジスタに供給し、
このレジスタより所定時間毎にデジタル音声信号を取り
出し、この取り出されたデジタル音声信号を直交変換す
ることによりパワースペクトル信号を形成し、このパワ
ースペクトル信号を聴感特性に合わせた周波数メルスケ
ールに応じて所定の帯域に分割することにより、上述の
課題を解決する。
【0010】また本発明に係るメモリ書き込み方法は、
上記音声信号圧縮方法により圧縮された音声信号をメモ
リに書き込む方法において、更に帯域分割されたパワー
スペクトル信号を音声スペクトルの包絡特性を表現する
音響パラメータとし、この音響パラメータよりローカル
パラメータを求め、このローカルパラメータをメモリ装
置に書き込むことにより、上述の課題を解決する。
上記音声信号圧縮方法により圧縮された音声信号をメモ
リに書き込む方法において、更に帯域分割されたパワー
スペクトル信号を音声スペクトルの包絡特性を表現する
音響パラメータとし、この音響パラメータよりローカル
パラメータを求め、このローカルパラメータをメモリ装
置に書き込むことにより、上述の課題を解決する。
【0011】
【作用】デジタル音声信号を直交変換して得られたパワ
ースペクトル信号を聴感特性に合わせた周波数メルスケ
ールに応じて所定の帯域に分割することにより、聴感上
の特徴点を残して圧縮が行われる。また、帯域分割され
たパワースペクトル信号を音声スペクトルの包絡特性を
表現する音響パラメータとして該音響パラメータより求
められるローカルパラメータをメモリ装置に書き込むこ
とにより、聴感上の同一性を維持したまま音声信号を圧
縮して記憶することができ、読み出し時の聴感が良好と
なる。
ースペクトル信号を聴感特性に合わせた周波数メルスケ
ールに応じて所定の帯域に分割することにより、聴感上
の特徴点を残して圧縮が行われる。また、帯域分割され
たパワースペクトル信号を音声スペクトルの包絡特性を
表現する音響パラメータとして該音響パラメータより求
められるローカルパラメータをメモリ装置に書き込むこ
とにより、聴感上の同一性を維持したまま音声信号を圧
縮して記憶することができ、読み出し時の聴感が良好と
なる。
【0012】
【実施例】以下、本発明を適用した実施例について図面
を参照しながら説明する。本発明の音声信号の圧縮方法
は、高速フーリエ変換による直交変換を利用することで
デジタル音声信号を聴感上の同一性を維持したまま、デ
ジタル音声信号を圧縮するものである。
を参照しながら説明する。本発明の音声信号の圧縮方法
は、高速フーリエ変換による直交変換を利用することで
デジタル音声信号を聴感上の同一性を維持したまま、デ
ジタル音声信号を圧縮するものである。
【0013】図1において、マイクロフォン1に供給さ
れた音声信号がマイクアンプ2で増幅され、通過帯域が
5.5kHz以下のローパスフィルタ(LPF)3を介し
て、A/D変換回路4に供給される。また、クロック発
生器5からの12.5kHz(80μsec 間隔)のサンプ
リングクロックがA/D変換回路4に供給され、このタ
イミングで音声信号がそれぞれ所定ビット数(=1ワー
ド)のデジタル信号に変換される。この変換された音声
信号が5×64ワードのレジスタ6に供給される。また
クロック発生器5からの5.12msec 間隔のフレーム
クロックが5進カウンタ7に供給され、このカウント値
がレジスタ6に供給されて音声信号が64ワードずつシ
フトされ、シフトされた4×64ワードの信号がレジス
タ6から取り出される。
れた音声信号がマイクアンプ2で増幅され、通過帯域が
5.5kHz以下のローパスフィルタ(LPF)3を介し
て、A/D変換回路4に供給される。また、クロック発
生器5からの12.5kHz(80μsec 間隔)のサンプ
リングクロックがA/D変換回路4に供給され、このタ
イミングで音声信号がそれぞれ所定ビット数(=1ワー
ド)のデジタル信号に変換される。この変換された音声
信号が5×64ワードのレジスタ6に供給される。また
クロック発生器5からの5.12msec 間隔のフレーム
クロックが5進カウンタ7に供給され、このカウント値
がレジスタ6に供給されて音声信号が64ワードずつシ
フトされ、シフトされた4×64ワードの信号がレジス
タ6から取り出される。
【0014】このレジスタ6から取り出された4×64
=256ワードの信号が高速フーリエ変換(FFT)回
路8に供給される。ここで、このFFT回路8におい
て、例えばTの時間長に含まれるnf 個のサンプリング
データによって表される波形関数を次の(1)式とした
とき、これをフーリエ変換して次の(2)式の信号が得
られる。
=256ワードの信号が高速フーリエ変換(FFT)回
路8に供給される。ここで、このFFT回路8におい
て、例えばTの時間長に含まれるnf 個のサンプリング
データによって表される波形関数を次の(1)式とした
とき、これをフーリエ変換して次の(2)式の信号が得
られる。
【数1】
【数2】
【0015】さらに、このFFT回路8からの信号がパ
ワースペクトルの検出回路9に供給されて、次の(3)
式の信号が得られる。
ワースペクトルの検出回路9に供給されて、次の(3)
式の信号が得られる。
【数3】
【0016】ここで、フーリエ変換された信号は、周波
数軸上で対称になっているので、フーリエ変換によって
取り出されるnf 個のデータの半分は冗長データであ
る。そこで、半分のデータを排除して、nf /2個のデ
ータが取り出される。すなわち上述のFFT回路8に供
給された256ワードの信号が変換されて128ワード
のパワースペクトル信号が取り出される。
数軸上で対称になっているので、フーリエ変換によって
取り出されるnf 個のデータの半分は冗長データであ
る。そこで、半分のデータを排除して、nf /2個のデ
ータが取り出される。すなわち上述のFFT回路8に供
給された256ワードの信号が変換されて128ワード
のパワースペクトル信号が取り出される。
【0017】このパワースペクトル信号がエンファシス
回路10に供給されて聴感上の補正を行うための重み付
けが行われる。ここで重み付けとしては、例えば周波数
の高域成分を増強する補正が行われる。
回路10に供給されて聴感上の補正を行うための重み付
けが行われる。ここで重み付けとしては、例えば周波数
の高域成分を増強する補正が行われる。
【0018】この重み付けされた信号が帯域分割回路1
1に供給され、聴感特性に合わせた周波数メルスケール
(MEL−SCALES)に応じて例えば32の帯域に
分割される。ここで、パワースペクトルの分割点と異な
る場合には、その信号が各帯域に按分されてそれぞれの
帯域の信号の量に応じた信号が取り出される。これによ
って上述した128ワードのパワースペクトル信号が、
音響的特徴を保存したまま32ワードに圧縮される。
1に供給され、聴感特性に合わせた周波数メルスケール
(MEL−SCALES)に応じて例えば32の帯域に
分割される。ここで、パワースペクトルの分割点と異な
る場合には、その信号が各帯域に按分されてそれぞれの
帯域の信号の量に応じた信号が取り出される。これによ
って上述した128ワードのパワースペクトル信号が、
音響的特徴を保存したまま32ワードに圧縮される。
【0019】この信号が対数回路12に供給され、各信
号の対数値に変換される。これによって上述のエンファ
シス回路10での重み付け等による冗長度が排除され
る。ここで次の(4)式に示す対数パワースペクトル
を、スペクトルパラメータx(i) (i=0,1・・・3
1)と称する。
号の対数値に変換される。これによって上述のエンファ
シス回路10での重み付け等による冗長度が排除され
る。ここで次の(4)式に示す対数パワースペクトル
を、スペクトルパラメータx(i) (i=0,1・・・3
1)と称する。
【数4】
【0020】このスペクトルパラメータx(i) が離散的
フーリエ変換(DFT)回路13に供給される。ここで
このDFT回路13において、例えば分割された帯域の
数をMとすると、このM次元スペクトルパラメータx
(i) (i=0,1・・・M−1)を2M−1点の実数対
称パラメータとみなして2M−2点のDFTを行う。従
って、次の(5)式のようになる。
フーリエ変換(DFT)回路13に供給される。ここで
このDFT回路13において、例えば分割された帯域の
数をMとすると、このM次元スペクトルパラメータx
(i) (i=0,1・・・M−1)を2M−1点の実数対
称パラメータとみなして2M−2点のDFTを行う。従
って、次の(5)式のようになる。
【数5】
【0021】さらに、このDFTを行う関数は偶関数と
みなわれるため、次の(6)式となり、これらより次の
(7)式となる。このDFTによりスペクトルの包絡特
性を表現する音響パラメータが抽出される。
みなわれるため、次の(6)式となり、これらより次の
(7)式となる。このDFTによりスペクトルの包絡特
性を表現する音響パラメータが抽出される。
【数6】
【数7】
【0022】このようにしてDFTされたスペクトルパ
ラメータx(i) について、0〜P−1(例えばP=8)
次までのP次元の値を取り出し、これをローカルパラメ
ータL(p) (p=0,1・・・P−1)とすると、次の
(8)式となり、ここでスペクトルパラメータが対称で
あることを考慮して次の(9)式とおくと、ローカルパ
ラメータL(p) は次の(10)式となる。このようにし
て32ワードの信号がP(例えば8)ワードに圧縮され
る。
ラメータx(i) について、0〜P−1(例えばP=8)
次までのP次元の値を取り出し、これをローカルパラメ
ータL(p) (p=0,1・・・P−1)とすると、次の
(8)式となり、ここでスペクトルパラメータが対称で
あることを考慮して次の(9)式とおくと、ローカルパ
ラメータL(p) は次の(10)式となる。このようにし
て32ワードの信号がP(例えば8)ワードに圧縮され
る。
【数8】
【数9】
【数10】
【0023】このローカルパラメータL(p) がメモリ装
置14に供給される。このメモリ装置14は1行Pワー
ドの記憶部が例えば16行マトリクス状に配されたもの
で、ローカルパラメータL(p) が各次元ごとに順次記憶
されると共に、上述のクロック発生器5からの5.12
msec間隔のフレームクロックが供給されて各行のパラ
メータが順次横方向へシフトされる。これによってメモ
リ装置14には5.12msec 間隔のP次元のローカル
パラメータL(p) が16フレーム(81.92msec )
分記憶され、フレームクロックごとに順次新しいパラメ
ータに更新される。
置14に供給される。このメモリ装置14は1行Pワー
ドの記憶部が例えば16行マトリクス状に配されたもの
で、ローカルパラメータL(p) が各次元ごとに順次記憶
されると共に、上述のクロック発生器5からの5.12
msec間隔のフレームクロックが供給されて各行のパラ
メータが順次横方向へシフトされる。これによってメモ
リ装置14には5.12msec 間隔のP次元のローカル
パラメータL(p) が16フレーム(81.92msec )
分記憶され、フレームクロックごとに順次新しいパラメ
ータに更新される。
【0024】
【発明の効果】本発明に係る音声信号圧縮方法によれ
ば、デジタル音声信号を直交変換して得られたパワース
ペクトル信号を聴感特性に合わせた周波数メルスケール
に応じて所定の帯域に分割しているため、聴感上の特徴
点を残して圧縮が行われ、原音の特徴を忠実に保存した
良好な圧縮が行える。また、本発明に係るメモリ書き込
み方法によれば、上記音声信号圧縮方法により圧縮され
た信号をメモリに書き込む際に、上記帯域分割されたパ
ワースペクトル信号を音声スペクトルの包絡特性を表現
する音響パラメータとし、この音響パラメータより求め
られるローカルパラメータをメモリ装置に書き込むよう
にしているため、聴感上の同一性を維持したまま音声信
号を圧縮して記憶することができ、読み出し時の聴感が
良好となる。さらに、音声認識の分野に適用する場合に
は、比較の際に特徴点同士の比較のみで済み、認識速度
の高速化が図れる。
ば、デジタル音声信号を直交変換して得られたパワース
ペクトル信号を聴感特性に合わせた周波数メルスケール
に応じて所定の帯域に分割しているため、聴感上の特徴
点を残して圧縮が行われ、原音の特徴を忠実に保存した
良好な圧縮が行える。また、本発明に係るメモリ書き込
み方法によれば、上記音声信号圧縮方法により圧縮され
た信号をメモリに書き込む際に、上記帯域分割されたパ
ワースペクトル信号を音声スペクトルの包絡特性を表現
する音響パラメータとし、この音響パラメータより求め
られるローカルパラメータをメモリ装置に書き込むよう
にしているため、聴感上の同一性を維持したまま音声信
号を圧縮して記憶することができ、読み出し時の聴感が
良好となる。さらに、音声認識の分野に適用する場合に
は、比較の際に特徴点同士の比較のみで済み、認識速度
の高速化が図れる。
【図1】本発明に係る音声圧縮方法及びメモリ書き込み
方法を説明するためのブロック回路図である。
方法を説明するためのブロック回路図である。
1・・・・・マイクロフォン 3・・・・・ローパスフィルタ(LPF) 4・・・・・A/D変換回路 5・・・・・クロック発生器 6・・・・・レジスタ 7・・・・・5進カウンタ 8・・・・・FFT(高速フーリエ変換)回路 9・・・・・パワースペクトル検出回路 10・・・・・エンファシス回路 11・・・・・帯域分割回路 12・・・・・対数回路 13・・・・・DFT(離散的フーリエ変換)回路 14・・・・・メモリ装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 西岡 久雄 東京都港区港南1丁目7番4号 ソニー株 式会社技術研究所内 (56)参考文献 電子通信学会編著「聴覚と音声」第10版 (昭51−8−15)電子通信学会P.83−84
Claims (2)
- 【請求項1】デジタル音声信号を順次レジスタに供給す
る工程と、このレジスタより所定時間毎にデジタル音声
信号を取り出す工程と、この取り出されたデジタル音声
信号を直交変換することによりパワースペクトル信号を
形成する工程と、このパワースペクトル信号を聴感特性
に合わせた周波数メルスケールに応じて所定の帯域に分
割する工程とを有することを特徴とする音声信号圧縮方
法。 - 【請求項2】デジタル音声信号を順次レジスタに供給
し、このレジスタより所定時間毎にデジタル音声信号を
取り出し、この取り出されたデジタル音声信号を直交変
換することによりパワースペクトル信号を形成し、この
パワースペクトル信号を聴感特性に合わせた周波数メル
スケールに応じて所定の帯域に分割して得られた信号を
メモリに書き込む方法において、更に帯域分割されたパ
ワースペクトル信号を音声スペクトルの包絡特性を表現
する音響パラメータとする工程と、この音響パラメータ
よりローカルパラメータを求める工程と、このローカル
パラメータをメモリ装置に書き込む工程とを有すること
を特徴とするデジタル音声信号のメモリ書き込み方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3130683A JPH0664480B2 (ja) | 1991-05-02 | 1991-05-02 | 音声信号圧縮方法及びメモリ書き込み方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3130683A JPH0664480B2 (ja) | 1991-05-02 | 1991-05-02 | 音声信号圧縮方法及びメモリ書き込み方法 |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP57029472A Division JPS58145999A (ja) | 1982-02-25 | 1982-02-25 | 音声認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH04362999A JPH04362999A (ja) | 1992-12-15 |
| JPH0664480B2 true JPH0664480B2 (ja) | 1994-08-22 |
Family
ID=15040122
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP3130683A Expired - Lifetime JPH0664480B2 (ja) | 1991-05-02 | 1991-05-02 | 音声信号圧縮方法及びメモリ書き込み方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0664480B2 (ja) |
-
1991
- 1991-05-02 JP JP3130683A patent/JPH0664480B2/ja not_active Expired - Lifetime
Non-Patent Citations (1)
| Title |
|---|
| 電子通信学会編著「聴覚と音声」第10版(昭51−8−15)電子通信学会P.83−84 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH04362999A (ja) | 1992-12-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP1422690B1 (en) | Apparatus and method for generating pitch waveform signal and apparatus and method for compressing/decompressing and synthesizing speech signal using the same | |
| CN111192594B (zh) | 人声和伴奏分离方法及相关产品 | |
| JP3576936B2 (ja) | 周波数補間装置、周波数補間方法及び記録媒体 | |
| JPH06230800A (ja) | 音声データ圧縮及び再生の方法及び装置 | |
| US20020169601A1 (en) | Encoding device, decoding device, and broadcast system | |
| JPH0664480B2 (ja) | 音声信号圧縮方法及びメモリ書き込み方法 | |
| JP2002041098A (ja) | 周波数間引き装置、周波数間引き方法及び記録媒体 | |
| JP3197975B2 (ja) | ピッチ制御方法及び装置 | |
| JP4639966B2 (ja) | オーディオデータ圧縮方法およびオーディオデータ圧縮回路並びにオーディオデータ伸張回路 | |
| JP3230782B2 (ja) | 広帯域音声信号復元方法 | |
| EP0924699A2 (en) | Digital audio tone evaluating system | |
| WO1991006945A1 (en) | Speech compression system | |
| JP3102553B2 (ja) | 音声信号処理装置 | |
| JPH0193799A (ja) | 音声ピッチ変換方法 | |
| CN117935826B (zh) | 音频升采样方法、装置、设备及存储介质 | |
| JP2004029377A (ja) | 圧縮データ処理装置、方法および圧縮データ処理プログラム | |
| JP2900076B2 (ja) | 波形生成装置 | |
| JP2900077B2 (ja) | 波形記録・再生法及び波形再生装置 | |
| Yan | Audio compression via nonlinear transform coding and stochastic binary activation | |
| JP2003271198A (ja) | 圧縮データ処理装置、方法および圧縮データ処理プログラム | |
| JPS6232797B2 (ja) | ||
| JPH07199998A (ja) | 音声信号圧縮伸張装置 | |
| KR19980037321A (ko) | 텍스트 음성합성 장치 및 방법 | |
| JPH0242497A (ja) | 音声記録再生装置 | |
| JPH1131000A (ja) | ボイスレコーダ |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19950404 |