JPH0664480B2

JPH0664480B2 - 音声信号圧縮方法及びメモリ書き込み方法

Info

Publication number: JPH0664480B2
Application number: JP3130683A
Authority: JP
Inventors: 雅男渡; 誠赤羽; 俊彦和久; 久雄西岡
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1991-05-02
Filing date: 1991-05-02
Publication date: 1994-08-22
Anticipated expiration: 2009-08-22
Also published as: JPH04362999A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声信号の圧縮方法及
び圧縮された音声信号をメモリに書き込む方法に関す
る。

【０００２】

【従来の技術】従来、音声信号のデジタル圧縮方法とし
て、入力したアナログ音声信号をＡ／Ｄ変換器により１
６ビツトのデジタルデータとした後、隣接サンプル値の
差が小さい性質を利用して差分ＰＣＭとしたり、出現確
率の大きいものほど短い符号とする不等長符号コーディ
ング等が知られている。

【０００３】ところで、音声信号を圧縮・伸長した場
合、何らかの信号の劣化を生じることは明らかであり、
圧縮率に対する音声信号の劣化が小さい方法が望まし
い。

【０００４】また劣化についても、原音と圧縮・伸長後
の音声信号とが、物理的に劣化が小さいという場合と、
人間の聴感上劣化が小さいという場合とが存在する。後
者の場合は、物理的には原音と異なり、聴感上は同一で
あるという場合である。しかしながら、音声信号の圧縮
・伸長の目的を鑑みれば、聴感上の問題に集約され、聴
感上問題が生じなければ、圧縮・伸長の目的は達成され
たと言える。

【０００５】このことは、特に音声認識において、特徴
点の同一という概念で表される。即ち特徴点が同一であ
るならば、それらの音声は聴感としては同一として認識
される。よって、聴感上の同一性を維持したまま音声信
号を圧縮するということが、原音の特徴を忠実に保存し
ていることとなり、より好ましい圧縮方法であると言え
る。

【０００６】従来は物理的に劣化が小さい点に着目した
圧縮・伸長方法が主であり、聴感上の特徴点を残して圧
縮・伸長するという技術を開示した例はなかった。

【０００７】また記憶媒体に音声信号を記憶させる場合
にも、聴感上の同一性を維持したまま音声信号を圧縮し
て記憶することが、結果的には読み出し時に聴感上は良
好となることが明らかである。特に音声認識の分野で
は、比較計算において、特徴点同士の比較で済み、認識
速度の高速化が見込める。

【０００８】

【発明が解決しようとする課題】本発明は、上述のよう
な点に鑑み、聴感上の特徴点を残して圧縮・伸長処理す
ることで、聴感上の問題を生じさせないようにし、また
メモリに書き込む際にも良好な聴感特性を得ることがで
き、音声認識の分野では認識速度の高速化が可能な音声
信号の圧縮方法及び圧縮された音声信号をメモリに書き
込む方法の提供を目的とする。

【０００９】

【課題を解決するための手段】本発明に係る音声信号圧
縮方法は、デジタル音声信号を順次レジスタに供給し、
このレジスタより所定時間毎にデジタル音声信号を取り
出し、この取り出されたデジタル音声信号を直交変換す
ることによりパワースペクトル信号を形成し、このパワ
ースペクトル信号を聴感特性に合わせた周波数メルスケ
ールに応じて所定の帯域に分割することにより、上述の
課題を解決する。

【００１０】また本発明に係るメモリ書き込み方法は、
上記音声信号圧縮方法により圧縮された音声信号をメモ
リに書き込む方法において、更に帯域分割されたパワー
スペクトル信号を音声スペクトルの包絡特性を表現する
音響パラメータとし、この音響パラメータよりローカル
パラメータを求め、このローカルパラメータをメモリ装
置に書き込むことにより、上述の課題を解決する。

【００１１】

【作用】デジタル音声信号を直交変換して得られたパワ
ースペクトル信号を聴感特性に合わせた周波数メルスケ
ールに応じて所定の帯域に分割することにより、聴感上
の特徴点を残して圧縮が行われる。また、帯域分割され
たパワースペクトル信号を音声スペクトルの包絡特性を
表現する音響パラメータとして該音響パラメータより求
められるローカルパラメータをメモリ装置に書き込むこ
とにより、聴感上の同一性を維持したまま音声信号を圧
縮して記憶することができ、読み出し時の聴感が良好と
なる。

【００１２】

【実施例】以下、本発明を適用した実施例について図面
を参照しながら説明する。本発明の音声信号の圧縮方法
は、高速フーリエ変換による直交変換を利用することで
デジタル音声信号を聴感上の同一性を維持したまま、デ
ジタル音声信号を圧縮するものである。

【００１３】図１において、マイクロフォン１に供給さ
れた音声信号がマイクアンプ２で増幅され、通過帯域が
５．５ｋHz以下のローパスフィルタ（ＬＰＦ）３を介し
て、Ａ／Ｄ変換回路４に供給される。また、クロック発
生器５からの１２．５ｋHz（８０μsec 間隔）のサンプ
リングクロックがＡ／Ｄ変換回路４に供給され、このタ
イミングで音声信号がそれぞれ所定ビット数（＝１ワー
ド）のデジタル信号に変換される。この変換された音声
信号が５×６４ワードのレジスタ６に供給される。また
クロック発生器５からの５．１２ｍsec 間隔のフレーム
クロックが５進カウンタ７に供給され、このカウント値
がレジスタ６に供給されて音声信号が６４ワードずつシ
フトされ、シフトされた４×６４ワードの信号がレジス
タ６から取り出される。

【００１４】このレジスタ６から取り出された４×６４
＝２５６ワードの信号が高速フーリエ変換（ＦＦＴ）回
路８に供給される。ここで、このＦＦＴ回路８におい
て、例えばＴの時間長に含まれるｎ_f個のサンプリング
データによって表される波形関数を次の（１）式とした
とき、これをフーリエ変換して次の（２）式の信号が得
られる。

【数１】

【数２】

【００１５】さらに、このＦＦＴ回路８からの信号がパ
ワースペクトルの検出回路９に供給されて、次の（３）
式の信号が得られる。

【数３】

【００１６】ここで、フーリエ変換された信号は、周波
数軸上で対称になっているので、フーリエ変換によって
取り出されるｎ_f個のデータの半分は冗長データであ
る。そこで、半分のデータを排除して、ｎ_f／２個のデ
ータが取り出される。すなわち上述のＦＦＴ回路８に供
給された２５６ワードの信号が変換されて１２８ワード
のパワースペクトル信号が取り出される。

【００１７】このパワースペクトル信号がエンファシス
回路１０に供給されて聴感上の補正を行うための重み付
けが行われる。ここで重み付けとしては、例えば周波数
の高域成分を増強する補正が行われる。

【００１８】この重み付けされた信号が帯域分割回路１
１に供給され、聴感特性に合わせた周波数メルスケール
（ＭＥＬ−ＳＣＡＬＥＳ）に応じて例えば３２の帯域に
分割される。ここで、パワースペクトルの分割点と異な
る場合には、その信号が各帯域に按分されてそれぞれの
帯域の信号の量に応じた信号が取り出される。これによ
って上述した１２８ワードのパワースペクトル信号が、
音響的特徴を保存したまま３２ワードに圧縮される。

【００１９】この信号が対数回路１２に供給され、各信
号の対数値に変換される。これによって上述のエンファ
シス回路１０での重み付け等による冗長度が排除され
る。ここで次の（４）式に示す対数パワースペクトル
を、スペクトルパラメータｘ_(i)（ｉ＝０，１・・・３
１）と称する。

【数４】

【００２０】このスペクトルパラメータｘ_(i)が離散的
フーリエ変換（ＤＦＴ）回路１３に供給される。ここで
このＤＦＴ回路１３において、例えば分割された帯域の
数をＭとすると、このＭ次元スペクトルパラメータｘ
_(i)（ｉ＝０，１・・・Ｍ−１）を２Ｍ−１点の実数対
称パラメータとみなして２Ｍ−２点のＤＦＴを行う。従
って、次の（５）式のようになる。

【数５】

【００２１】さらに、このＤＦＴを行う関数は偶関数と
みなわれるため、次の（６）式となり、これらより次の
（７）式となる。このＤＦＴによりスペクトルの包絡特
性を表現する音響パラメータが抽出される。

【数６】

【数７】

【００２２】このようにしてＤＦＴされたスペクトルパ
ラメータｘ_(i)について、０〜Ｐ−１（例えばＰ＝８）
次までのＰ次元の値を取り出し、これをローカルパラメ
ータＬ_(p)（ｐ＝０，１・・・Ｐ−１）とすると、次の
（８）式となり、ここでスペクトルパラメータが対称で
あることを考慮して次の（９）式とおくと、ローカルパ
ラメータＬ_(p)は次の（１０）式となる。このようにし
て３２ワードの信号がＰ（例えば８）ワードに圧縮され
る。

【数８】

【数９】

【数１０】

【００２３】このローカルパラメータＬ_(p)がメモリ装
置１４に供給される。このメモリ装置１４は１行Ｐワー
ドの記憶部が例えば１６行マトリクス状に配されたもの
で、ローカルパラメータＬ_(p)が各次元ごとに順次記憶
されると共に、上述のクロック発生器５からの５．１２
ｍsec間隔のフレームクロックが供給されて各行のパラ
メータが順次横方向へシフトされる。これによってメモ
リ装置１４には５．１２ｍsec 間隔のＰ次元のローカル
パラメータＬ_(p)が１６フレーム（８１．９２ｍsec ）
分記憶され、フレームクロックごとに順次新しいパラメ
ータに更新される。

【００２４】

【発明の効果】本発明に係る音声信号圧縮方法によれ
ば、デジタル音声信号を直交変換して得られたパワース
ペクトル信号を聴感特性に合わせた周波数メルスケール
に応じて所定の帯域に分割しているため、聴感上の特徴
点を残して圧縮が行われ、原音の特徴を忠実に保存した
良好な圧縮が行える。また、本発明に係るメモリ書き込
み方法によれば、上記音声信号圧縮方法により圧縮され
た信号をメモリに書き込む際に、上記帯域分割されたパ
ワースペクトル信号を音声スペクトルの包絡特性を表現
する音響パラメータとし、この音響パラメータより求め
られるローカルパラメータをメモリ装置に書き込むよう
にしているため、聴感上の同一性を維持したまま音声信
号を圧縮して記憶することができ、読み出し時の聴感が
良好となる。さらに、音声認識の分野に適用する場合に
は、比較の際に特徴点同士の比較のみで済み、認識速度
の高速化が図れる。

【図面の簡単な説明】

【図１】本発明に係る音声圧縮方法及びメモリ書き込み
方法を説明するためのブロック回路図である。

【符号の説明】

１・・・・・マイクロフォン３・・・・・ローパスフィルタ（ＬＰＦ）４・・・・・Ａ／Ｄ変換回路５・・・・・クロック発生器６・・・・・レジスタ７・・・・・５進カウンタ８・・・・・ＦＦＴ（高速フーリエ変換）回路９・・・・・パワースペクトル検出回路１０・・・・・エンファシス回路１１・・・・・帯域分割回路１２・・・・・対数回路１３・・・・・ＤＦＴ（離散的フーリエ変換）回路１４・・・・・メモリ装置

───────────────────────────────────────────────────── フロントページの続き (72)発明者西岡久雄東京都港区港南１丁目７番４号ソニー株式会社技術研究所内 (56)参考文献電子通信学会編著「聴覚と音声」第10版（昭51−８−15）電子通信学会Ｐ．83−84

Claims

【特許請求の範囲】

【請求項１】デジタル音声信号を順次レジスタに供給す
る工程と、このレジスタより所定時間毎にデジタル音声
信号を取り出す工程と、この取り出されたデジタル音声
信号を直交変換することによりパワースペクトル信号を
形成する工程と、このパワースペクトル信号を聴感特性
に合わせた周波数メルスケールに応じて所定の帯域に分
割する工程とを有することを特徴とする音声信号圧縮方
法。
【請求項２】デジタル音声信号を順次レジスタに供給
し、このレジスタより所定時間毎にデジタル音声信号を
取り出し、この取り出されたデジタル音声信号を直交変
換することによりパワースペクトル信号を形成し、この
パワースペクトル信号を聴感特性に合わせた周波数メル
スケールに応じて所定の帯域に分割して得られた信号を
メモリに書き込む方法において、更に帯域分割されたパ
ワースペクトル信号を音声スペクトルの包絡特性を表現
する音響パラメータとする工程と、この音響パラメータ
よりローカルパラメータを求める工程と、このローカル
パラメータをメモリ装置に書き込む工程とを有すること
を特徴とするデジタル音声信号のメモリ書き込み方法。