JPH1165599A - 音声圧縮伸張方法および装置並びに音声圧縮伸張処理プログラムを記憶する記憶媒体 - Google Patents
音声圧縮伸張方法および装置並びに音声圧縮伸張処理プログラムを記憶する記憶媒体Info
- Publication number
- JPH1165599A JPH1165599A JP9223512A JP22351297A JPH1165599A JP H1165599 A JPH1165599 A JP H1165599A JP 9223512 A JP9223512 A JP 9223512A JP 22351297 A JP22351297 A JP 22351297A JP H1165599 A JPH1165599 A JP H1165599A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- segment
- voice
- unit
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000007906 compression Methods 0.000 title claims abstract description 46
- 230000006835 compression Effects 0.000 title claims abstract description 46
- 238000001228 spectrum Methods 0.000 claims abstract description 42
- 230000006837 decompression Effects 0.000 claims abstract description 35
- 230000003595 spectral effect Effects 0.000 claims description 31
- 238000000605 extraction Methods 0.000 claims description 18
- 239000012634 fragment Substances 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims 2
- 239000000470 constituent Substances 0.000 claims 1
- 230000004044 response Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 108010076504 Protein Sorting Signals Proteins 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000005284 excitation Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
縮伸張を可能とするとともに、ハードウエア化や並列処
理化に有利なものとする。 【解決手段】 音声片切り出し部1によって所定区間の
音声片を処理対象音声片として切り出し、類似度判定部
3により複数種類の音声片群含む音声片表4を参照して
類似度を判定し、音声片選択部5によって、最も類似度
の高い部分を有する音声片を選択する。そして、符号化
部6により選択された音声片についてのデータを基に前
記処理対象音声片を符号化する。また、伸張処理を行っ
た後、あるいは、スペクトル包絡パラメータの抽出後
に、音声片更新部11によって、前記音声片表に格納さ
れるそれぞれの音声片の内容を更新する。
Description
処理で効率的に圧縮伸張処理する音声圧縮伸張方法およ
び装置並びに音声圧縮伸張処理プログラムを記憶した記
憶媒体に関する。
として、従来より様々な方法が提案されている。その1
つとして、特開昭59−116973(以下、第1の従
来技術という)がある。
短時間毎に分割して短時間音声信号系列を求める手段、
この短時間音声信号系列からスペクトル包絡パラメータ
を抽出するスペクトル包絡パラメータ抽出手段、このス
ペクトル包絡パラメータをもとにインパルス応答系列を
計算するするインパルス応答系列計算手段、このインパ
ルス応答系列を用いて自己相関関数列を計算する手段、
前記インパルス応答系列と短時間音声信号系列を用いて
相互相関関数列を計算する手段、前記自己相関関数列と
相互相関関数列を用いて駆動音源信号系列計算して符号
化する手段、スペクトル包絡符号と駆動音源信号とを組
み合わせて出力する手段とを有し、さらに、前記短時間
音声信号に対して予め定められた補正を加える目標信号
計算手段を有している。
化を行うに際して、効率的に駆動音源パルスの位置とゲ
インを決定することができ、また、計算量、使用メモリ
量の削減にもある程度の効果は得られる。
のような音声信号を符号化したのち、音声合成を行う場
合、高品質な音声合成を得るには、駆動音源パルスをた
くさん抽出する必要があるため、圧縮率が悪くなるとい
う問題点があった。
と複雑で、高精度な合成音を得るには、駆動音源パルス
をたくさん抽出する必要があり、結局は、圧縮率が悪い
ものとなってしまう。
て、特開昭63−37399(以下、第2の従来技術と
いう)、特開平3−4300(以下、第3の従来技術と
いう)がある。
定を行い、過去のパルス列からの推定値と実際の信号と
の残差を求め、この残差により駆動音源パルスを計算し
ようとするものである。
い、その1ピッチ区間分の駆動音源(マルチパルス)を
推定する。そして、そのマルチパルスのゲインと位相を
補正することによって、他のピッチ区間を補正すること
により他のピッチ区間を近似する。さらに、推定された
値と実際の値との残差より、第2のマルチパルスを推定
する。なお、マルチパルス信号の他に雑音コードブック
を用いる場合もある。
従来技術は、同じ波形を繰り返す周期を求め、1つ前の
周期から次の周期を推定し、その推定した部分と現実の
音声波形との差分を計算して、その差分により駆動音源
を計算するため、高い圧縮率が実現できる。
する必要があるため計算量が多く、また、それらのデー
タを蓄えるために大きな容量のメモリが必要になるとい
う問題点がある。
源パルスを計算するため、データの一部が失われた場
合、失われたデータ部分がそれ以降の計算に大きな影響
を与えることになり、高精度な音声合成が行えなくなる
という大きな問題点がある。
いて種々の問題点がある。たとえば、第1の従来技術
は、駆動音源パルスを求めるための基本的な技術ではあ
るが、合成音の品質を上げようとすると、多くの駆動音
源パルスを立てる必要があり、女性の声のような音声デ
ータに対しては特に圧縮率が悪くなるという問題があ
る。また、第2の従来技術と、第3の従来技術は高圧縮
率が得られるが、計算量が多く、使用メモリ量も多いと
いう問題があり、さらに、差分情報を用いるためデータ
欠落に弱いという問題がある。
器が広い分野で用いられるようになってきている。この
種の携帯用情報機器は、CPUの計算速度やメモリ容量
には大きな制約があるため、計算量や使用メモリ量が多
いということは重大な問題である。また、差分情報を用
いる方法は、データの欠落を考慮する必要のある情報機
器においては製品の性能向上の面で問題が多く、携帯機
器に限らず、コンピュータネットワーク上のリアルタイ
ム伝送などにおいても、データの欠落が、伝送されるデ
ータに大きな影響を与えることにもなる。
符号化方法は、処理が複雑であることが共通しており、
ハードウエア化、並列処理による高速化が相対的に困難
であるという問題点がある。特に、ピッチ周期を求める
処理を含むものは、計算量が多く、また、誤りが発生し
た場合の影響が大きい。さらに、従来のスペクトル包絡
パラメータによるインパルス応答と、駆動パルスを用い
る方法は、パルスの前後に不連続を生じ、これが雑音と
なって現れるという問題点がある。
ードウエア化、並列処理化を容易に可能とし、かつ、効
率のよい符号化が可能で、比較的高い圧縮率での音声デ
ータ圧縮を可能とする音声圧縮伸張方法および装置並び
に音声圧縮伸張処理プログラムを記憶した記憶媒体を提
供することを目的とする。
された音声圧縮伸張方法は、入力音声から所定区間の音
声片を処理対象音声片として切り出し、複数種類の音声
片群含む音声片表を参照し、その音声片表内のそれぞれ
の音声片と前記処理対象音声片との類似性を比較して、
最も類似度の高い音声片を選択し、その選択された音声
片についてのデータを基に、前記処理対象音声片を符号
化して符号化データを作成する処理を含むことを特徴と
している。
て、符号化データを作成したのち、その符号化データを
伸張し、この伸張されたデータを前記処理対象音声片か
ら差し引いて残差を求め、その残差波形に対して、前記
複数種類の音声片群含む音声片表を参照し、その音声片
表内のそれぞれの音声片と前記残差波形との類似性を比
較する処理を1回以上行って符号化データを得るように
している。
は2の発明において、前記音声片表に格納される音声片
は、前記処理対象音声片よりも時間的に後方のすでに圧
縮伸張処理された音声波形を用いて作成された音声片、
スペクトル包絡パラメータにより推定される時間的前方
予測音声波形と時間的後方予測音声波形を用いて作成さ
れた音声片、雑音成分により作成された音声片を少なく
とも有し、それぞれの音声片は、符号化されたデータの
伸張処理後あるいはスペクトル包絡パラメータの抽出後
にその内容が更新されるようにしている。
のいずれかの発明において、前記各音声片は、前記処理
対象音声片よりも時間的に長い区間を有し、処理対象音
声片との類似度判定の際は、各音声片の長さの範囲にお
いて処理対象音声片との類似性が判定され、最も類似度
の高い部分を有する音声片が選択されるようにしてい
る。
において、前記符号化データは、前記最も類似度の高い
部分を有する音声片番号、その音声片内のどの部分であ
るかを表す位置データ、振幅調整用のパラメータで表さ
れるデータであり、さらに、場合に応じて、スペクトル
包絡パラメータをも加えたデータである。
伸張装置は、入力音声からあらかじめ設定された所定区
間の音声片を処理対象音声片として切り出す音声片切り
出し部と、入力音声からスペクトル包絡パラメータを抽
出するスペクトル包絡パラメータ抽出部と、複数種類の
音声片を格納する音声片表と、前記音声片表を参照し、
その音声片表内のそれぞれの音声片と前記処理対象音声
片との類似性を比較して類似度を求める類似度判定部
と、この類似度判定部による類似度に基づいて、最も類
似度の高い音声片を選択する音声片選択部と、この音声
片選択部により選択された音声片についてのデータを基
に前記処理対象音声片を符号化する符号化部と、この符
号化部により符号化されたデータを符号化データとして
出力するとともに、場合によっては、前記符号化部によ
り符号化されたデータに前記スペクトル包絡パラメータ
抽出部により抽出されたスペクトル包絡パラメータを加
えた符号化データを作成して出力する符号化データ出力
部とを構成要件として含むものである。
て、符号化部により符号化されたデータを伸張する伸張
部と、この伸張部により伸張されたデータを前記処理対
象音声片から差し引いて残差を求める残差生成部と、前
記伸張部により伸張されたデータあるいは前記スペクト
ル包絡パラメータ抽出部により抽出されたスペクトル包
絡パラメータを用いて前記音声片表に格納された音声片
の内容の更新を行う音声片更新部とを有する構成として
いる。
明において、前記類似度判定部、音声片選択部、符号化
部、伸張部、残差生成部は、処理手順にループを形成
し、類似度判定、音声片選択、符号化、伸張、残差生成
処理を行って得られる残差波形に対して、前記音声片表
テーブルを参照し、その音声片表テーブル内のそれぞれ
の音声片と前記残差波形との類似性を比較する処理を、
1回以上行ったのち、符号化データを作成して出力する
ようにしている。
のいずれかの発明において、前記音声片表に格納される
音声片は、前記処理対象音声片よりも時間的に後方のす
でに圧縮伸張処理された音声波形を用いて作成された音
声片、スペクトル包絡パラメータにより推定される時間
的前方予測音声波形と時間的後方予測音声波形を用いて
作成された音声片、雑音成分により作成された音声片を
少なくとも有し、それぞれの音声片は、前記音声更新処
理部によって、伸張処理後あるいはスペクトル包絡パラ
メータの抽出後にその内容が更新されるようにしてい
る。
ずれかの発明において、前記各音声片は、前記処理対象
音声片よりも時間的に長い区間を有し、処理対象音声片
との類似度判定の際は、各音声片の長さの範囲において
処理対象音声片との類似性が判定され、最も類似度の高
い部分を有する音声片が選択されるようにしている。
発明において、前記符号化データは、前記最も類似度の
高い部分を有する音声片番号、その音声片内のどの部分
であるかを表す位置データ、振幅調整用のパラメータで
表されるデータであり、さらに、場合に応じて、スペク
トル包絡パラメータをも加えたデータである。
処理プログラムを記憶した記憶媒体の発明は、その音声
圧縮伸張処理プログラムは、入力音声から所定区間の音
声片を処理対象音声片として切り出し、複数種類の音声
片群含む音声片表を参照し、その音声片表内のそれぞれ
の音声片と前記処理対象音声片との類似性を比較し、最
も類似度の高い音声片を選択して、選択された音声片に
ついてのデータを基に前記処理対象音声片を符号化し、
場合に応じて、スペクトル包絡パラメータをも加えた符
号化データを作成する処理を行うとともに、符号化され
たデータの伸張処理後あるいは前記スペクトラム包絡パ
ラメータの抽出後に、前記音声片表に格納されるそれぞ
れの音声片の内容を更新する処理を行うものである。
れぞれの音声片と入力音声から切り出した処理対象音声
片(たとえば、4msec程度の長さの音声片)との類似性
を比較し、最も類似度の高い音声片を選択し、その選択
された音声片についてのデータを基に前記処理対象音声
片を符号化するという処理を基本処理として行うように
している。これにより、符号化がきわめて単純な処理で
可能となるため、ハードウエア化、並列処理化を行う際
に有利なものとすることができる。
符号化データの伸張処理、伸張されたデータを前記処理
対象音声片から差し引く残差生成処理、その残差波形に
対して、再び、音声片表を参照し、類似性を求めるとい
う処理を1回以上行って符号化データを得ることによ
り、より一層、高精度な符号化データを得ることができ
る。
理対象音声片よりも時間的に後方のすでに圧縮伸張処理
された音声波形を用いて作成された音声片、スペクトル
包絡パラメータにより推定される時間的前方予測音声波
形と時間的後方予測音声波形を用いて作成された音声
片、雑音成分により作成された音声片を少なくとも有す
ることで、入力音声を符号化する際、効率よく、しかも
高精度な符号化が可能となる。特に、スペクトル包絡パ
ラメータにより推定される予測音声波形を用いる場合、
従来では、時間的前方予測音声波形(インパルス応答)
のみを用いることが一般的であるが、本発明は、スペク
トル包絡パラメータにより推定される時間的前方予測音
声波形と時間的後方予測音声波形を用いて音声片を作成
するようにしている。
時間的に後方の後方予測音声波形を用いると、雑音の低
減を図れる効果がある。すなわち、インパルス応答(前
方予測音声波形)のみを用いた音声片とした場合、音声
レベルが殆ど0の状態から急激に波形が立ち上がった音
声片となってしまうため、その音声片を用いて圧縮伸張
処理したとき、不連続点が生じることによってその部分
が雑音となって現れるという問題点がある。これに対し
て、時間的に後方の後方予測音声波形を用いると不連続
点を限りなく小さくすることができ、圧縮伸張音声の品
質を大幅に改善できる。
データの伸張処理後あるいはスペクトル包絡パラメータ
の抽出後にその内容が更新されるようにしているので、
従来のように、固定的な内容のコードブックとは異な
り、処理対象音声片に対して、常に、最適な音声片が格
納されることになり、高品質な符号化が可能となる。
分音声片を有する音声片番号、その音声片内のどの部分
であるかを表す位置データ、振幅調整用のパラメータで
表されるデータに、場合によっては、スペクトル包絡パ
ラメータをも加えたデータで表すことができる。したが
って、符号化後のデータは数バイト程度のデータとな
り、大幅なデータ圧縮が可能となる。なお、一般には、
音声は急激に変化することは少ないので、処理対象音声
片それぞれが4msec程度として考えた場合、スペクトル
包絡パラメータの変化は緩やかであり、処理対象の音声
片の10個に1回程度の頻度でスペクトル包絡パラメー
タを抽出することで十分な精度が得られる、したがっ
て、スペクトル包絡パラメータを加えたとしても大幅に
圧縮されたデータとすることができる。
て説明する。具体的な実施の形態を説明する前に、ま
ず、本発明の実施の形態の基本的な処理内容について説
明する。
うな入力音声波形から、たとえば、4msec程度の音声片
の切り出しを行う。この切り出された音声片(以下、処
理対象音声片という)h1を音声片表に格納されている
音声片と比較し、最も類似度の高い音声片を音声片表の
中から選択し、選択された音声片を用いて符号化データ
を作成する。なお、処理対象音声片を4msecとしたの
は、この実施の形態において使用したシステムでは、4
msec程度の長さで切り出すのが最もよい結果が得られる
からである。つまり、処理理対象音声片の長さが4msec
よりも短くなると、音質的には向上するが、圧縮率の低
下につながり、また、4msecよりも長くなると、圧縮率
的には有利となるが、音質的な劣化につながるおそれが
あるからである。
は、図2に示すような複数の要素から作成された音声片
(この例では、A1〜A4の4つの音声片)を有するも
ので、これらの音声片の作成方法については後に説明す
る。なお、音声片表には常に最新の音声片が格納される
ものであり、図2に示す音声片表は、或る時刻における
音声片表の内容を示すものである。
であるとすれば、図1において、切り出された4msec程
度の処理対象音声片h1が、音声片表の中のどの音声片
のどの部分に最も類似しているかを判断する。この場
合、処理対象音声片h1は、音声片表の音声片A2の位
置p1からの部分が最も類似していると判定される。な
お、この最も類似している部分を、類似部分と呼ぶこと
にする。
データは、音声片表の音声片番号A2、位置p1、音声
レベルを合わせるための倍率によって表すことができ
る。
場合、A1〜A4の4つが存在するため、2ビットであ
らわすことができ、位置p1は、それぞれの音声片の長
さを16msecとすれば128サンプリング点(サンプリ
ング周波数が8kHzであるとする)であるため、7ビ
ットで表すことができる。また、音声レベルの高さを合
わせるために、たとえば、128段階で調整するとすれ
ば、やはり7ビットで表すことができる。したがって、
これらを合計すると、16ビット、つまり、2バイトの
データとして表現できる。
サンプリング点それぞれに2バイト程度のデータ量があ
るとすれば、サンプリング点の数が32個であると、6
4バイトのデータ量が存在することになる。したがっ
て、符号化後のデータ量は、元のデータに対して、1/
32となる。
る場合は、そのデータとして、4.5バイト程度必要であ
る。ただし、一般には、音声は急激に変化することは少
ないので、処理対象音声片それぞれが4msec程度として
考えた場合、スペクトル包絡パラメータの変化は緩やか
であり、処理対象音声片の10個に1回程度の頻度でス
ペクトル包絡パラメータを抽出することで十分な精度が
得られる、したがって、スペクトル包絡パラメータを加
えたとしても、その符号化データは元のデータに対して
大幅に圧縮されたデータとすることができる。
単純であり、しかも効率のよい音声データの圧縮が可能
となる。
説明する。
明するフロ−チャ−トである。図3において、まず、入
力音声から4msec程度の処理対象音声片h1を切り出す
(ステップs1)。この処理は、前述の図1により説明
した処理である。そして、スペクトル包絡パラメータを
抽出するか否かを判断し(ステップs2)、スペクトル
包絡パラメータを必要とする場合は、スペクトル包絡パ
ラメータの抽出を行う(ステップs3)。なお、前述し
たように、音声は急激に変化することは少ないので、切
り出される処理対象音声片それぞれが4msec程度として
考えた場合、スペクトル包絡パラメータの変化は緩やか
である。したがって、処理対象音声片の10個に1回程
度の頻度でスペクトル包絡パラメータを抽出することで
十分な精度が得られる。
時点における音声片表を参照して、最も類似度の高い類
似部分を有する音声片を選択する。たとえば、或る時点
における処理対象音声片h1に対して、その時点の音声
片表の内容が図2に示す内容であったとすると、処理対
象音声片h1は、音声片表の音声片A2の位置p1から
の部分が最も類似していると判定され、その音声片A2
が類似部分を有する音声片として選択される。
ータ(音声片番号、位置、音声レベルを合わせるための
倍率)などに基づいて符号化処理を行う(ステップs
5)。
断して(ステップs6)、圧縮処理が終了であれば、ス
テップs5にて符号化処理した符号化データを出力し
(ステップs7)、入力音声についてすべての圧縮処理
が終了か否かを判断して(ステップs8)、終了であれ
ば処理を終了とし、まだ、終了していなければ、ステッ
プs1に戻る。
了でなければ、伸張処理(ステップs9)、残差生成処
理(ステップs10)を行ったのち、ステップs4に処
理が戻り、ステップs4からステップs10で形成され
るループ処理を行う。以下、このループ処理について説
明する。
片h1に対して音声片表の音声片A2の位置p1からの
部分が最も類似していると判定され、その類似部分を有
する音声片A2が選択されたとする。そして、選択され
た音声片A2についてのデータ(音声片番号、位置、音
声レベルを合わせるための倍率)などに基づいて符号化
処理を行う。この段階で圧縮処理を終了としないで、同
じ処理を何回か繰り返す。つまり、ステップs5におい
て符号化されたあと、符号化されたデータを、一旦、伸
張処理し(ステップs7)、その後、残差生成処理を行
う(ステップ8)。
て伸張された音声データを、元の入力音声(この場合、
処理対象音声片h1)から差し引いて、その差分を取る
処理である。つまり、図4に示すように、処理対象音声
片h1から伸張処理された音声データH1を引いて、そ
の残差d1を求める。そして、求められた残差d1につ
いて、その時点における音声片表を参照して、最も類似
度の高い部分(類似部分)を有する音声片を選択すると
いう処理を行う。このような処理を1回以上行うことに
より、より一層、高精度な圧縮データが得られるが、2
回程度でも十分な精度が得られる。
処理は、図5のフロ−チャ−トに示されるような処理手
順にて行われる。
(ステップ11)、スペクトル包絡パラメータの更新か
否かを判断する(ステップs12)。つまり、スペクト
ル包絡パラメータが抽出されている場合は、これまでの
スペクトル包絡パラメータの値を新たなスペクトル包絡
パラメータの値に更新する(ステップs13)。
て、符号化データに基づいて最も類似度の高い部分(類
似部分)を有する音声片を選択する(ステップs1
4)。そして、選択された音声片データに基づいて伸張
データを作成する(ステップs15)。そして、処理が
終了したか否かを判断する(ステップs16)。処理終
了でなければ、ステップs15にて伸張処理されたデー
タを用いて、それまでの音声片表の内容を、この新たな
音声片によって更新する(ステップs17)。
その符号化データに対して、同様の処理が行われる。
一つとしてだけ用いられるのではなく、伸張処理単独で
も用いられる。たとえば、符号化されたデータが所定の
メモリに蓄えられている場合、その符号化されたデータ
を伸張処理する場合にも用いられる。
3のフローチャートにおいては、残差生成を行う(ステ
ップs10)。つまり、前述したように、図4に示すよ
うに、音声片h1から伸張処理された音声データH1を
引いて、その残差d1を求める。そして、求められた残
差d1について、その時点における音声片表(伸張処理
後に新たに更新された音声片表)を参照して、最も類似
度の高い部分(類似部分)を有する音声片を選択すると
いう処理を行う。このような処理を1回以上行うことに
より、より一層、高精度な圧縮データが得られるが、前
述の如く、2回程度でも十分な精度が得られる。
表は、少なくとも以下に示す要素により作成された音声
片を含むものである。
に対し、すでに圧縮伸張処理された音声データ(処理対
象音声片に対し、時間的に後方の圧縮伸張処理された音
声データ)を用いる。なお、ここでは、すでに過ぎ去っ
た時間を時間的に後方といい、これから先の時間を時間
的に前方という表現を用いる。
し、ある時刻t1までの入力音声がすでに圧縮伸張処理
され、その圧縮伸張処理された音声波形が図6(b)の
ようであったとする。そして、現在、処理対象音声片が
h1であったとすると、その処理対象音声片h1に対し
ては、図6(b)に示す圧縮伸張された音声波形の所定
部分(処理対象音声片h1に対する直前の圧縮伸張され
た音声波形)を音声片として用いる。これは、図2に示
す音声片表においては、たとえば、A2の音声片に相当
する。なお、その音声片の時間的な長さは、16msec程
度とする。
包絡パラメータより推定される時間的前方予測音声波形
およびそれと連続する時間的後方予測音声波形を用い
る。
メータは、切り出された音声片ごとに送る必要はない。
これは、音声は急激には変化することは殆どないと考え
られるためであり、たとえば、数個から十数個の処理対
象音声片に対して1回というような割合でスペクトル包
絡パラメータを送ればよい。そういう意味で、ここで
は、処理対象音声片の“近傍”のスペクトル包絡パラメ
ータという表現を用いている。
ペクトル包絡パラメータより推定される時間的前方予測
音声波形およびそれと連続する時間的後方予測音声波形
というのは、図7に示すように、インパルス応答(前方
予測音声波形)x1に加えて、時間的に後方の後方予測
音声波形x2を指している。
声波形)に加えて、時間的に後方の後方予測音声波形を
用いると、雑音の低減を図れる効果がある。すなわち、
インパルス応答(前方予測音声波形)のみを用いた音声
片とした場合、音声レベルが殆ど0の状態から急激に波
形が立ち上がった音声片となってしまうため、その音声
片を用いて圧縮伸張処理したとき、不連続点が生じるこ
とによってその部分が雑音となって現れるという問題点
がある。これに対して、時間的に後方の後方予測音声波
形を用いると不連続点を限りなく小さくすることがで
き、圧縮伸張音声の品質を大幅に改善できる。
よく、また、実際の入力音声中からサンプル化されたも
のを用いてもよい。
の内容としては、(1)〜(3)で説明した音声片を少
なくとも含むものとする。そして、これら各音声片は1
6msec程度の長さの音声片として、たとえば、図2に示
すような状態で保持され、常に、最新のデータが蓄えら
れる。
示すブロック図である。図8において、音声入力部1か
ら入力された音声は、音声切り出し部2によって、前述
したように、たとえば、4msec程度の処理対象音声片と
して切り出される。この切り出された処理対象音声片
は、類似度判定部3によって、音声片表4内の幾つかの
音声片a1,a2,・・・,Anと比較され類似度を得
る。そして、音声片選択部5によって最も類似度の高い
部分(類似部分)を有する音声片が選択される。
のデータ(音声片番号、位置、音声レベルを合わせるた
めの倍率)などに基づいて符号化処理を行う。なお、こ
の段階で符号化処理を終了とすれば、その符号化データ
を符号化データ出力部7から出力する。また、このと
き、スペクトル包絡パラメータを用いる場合は、スペク
トル包絡パラメータ抽出部8によって抽出されたスペク
トル包絡パラメータを加えた符号化処理を行う。
部7で符号化された符号化データを伸張部9によって伸
張処理し、残差生成部10にて残差生成処理を行う。こ
の伸張処理と残差生成処理は図4におけるフローチャー
トのステップs9とステップs10の処理である。
うに、符号化されて伸張された音声データを元の入力音
声(この場合、処理対象音声片h1)から差し引いて、
その差分を取る処理である。つまり、図4に示すよう
に、音声片h1から伸張処理された音声データH1を引
いて、その残差d1を求めるものである。そして、求め
られた残差について、その時点における音声片表を参照
して、最も類似度の高い類似部分音声片を選択するとい
う処理を行う。
は、図5のフロ−チャ−トに示されるような処理手順に
て行われる。そして、伸張処理された音声データを用い
て、音声片更新部11が音声片表4の内容の更新を行
う。また、この音声片更新部11は、スペクトル包絡パ
ラメータ抽出部8からスペクトル包絡パラメータが抽出
された場合は、そのスペクトル包絡パラメータにより推
定される時間的前方予測音声波形およびそれと連続する
時間的な後方予測音声波形をも更新する。このようにし
て、音声片表4の内容は常に最新の音声片が格納される
ことになる。
的な動作については、図4のフローチャートで説明した
ので、ここではその動作についての説明は省略する。
れるものではなく、本発明の要旨を逸脱しない範囲で種
々変形実施可能となるものである。たとえば、切り出さ
れる処理対象音声片は、前述の実施の形態では、4msec
としたが、これは、前述の実施の形態において使用した
システムでは、4msecとすることで最もよい結果が得ら
れたからである。しかし、使用するシステムなどによっ
ては、この数値は異なる場合もあるので、これに限定さ
れるものではなく、本発明が適用されるシステムに応じ
て最適な時間を設定することができる。また、図2で示
した音声片表の内容は一例であって、これに限られるも
のではない。
処理を行う処理プログラムは、フロッピィディスク、光
ディスク、ハードディスクなどの記憶媒体に記憶させて
置くことが出来、本発明は、これらの記憶媒体をも含む
ものであり、また、ネットワークからデータを得る方式
でもよい。
音声片表内のそれぞれの音声片と入力音声から切り出し
た処理対象音声片との類似性を比較し、最も類似度の高
い音声片を選択し、その選択された音声片についてのデ
ータを基に前記処理対象音声片を符号化する処理を基本
処理として行うようにしている。これにより、符号化が
きわめて単純な処理で可能となる。
符号化データの伸張処理を行い、伸張されたデータを前
記処理対象音声片から差し引いて得られた残差波形に対
して、再び、音声片表を参照し、類似性を求めるという
処理を複数回行って符号化データを得ることにより、よ
り一層、高品質な符号化データを得ることができる。
理対象音声片よりも時間的に後方のすでに圧縮伸張処理
された音声波形を用いて作成された音声片、スペクトル
包絡パラメータにより推定される時間的前方予測音声波
形と時間的後方予測音声波形を用いて作成された音声
片、雑音成分により作成された音声片を少なくとも有す
ることで、入力音声を符号化する際、効率よく、しかも
高品質な符号化が可能となる。特に、スペクトル包絡パ
ラメータにより推定される予測音声波形により音声片を
作成する場合、本発明では、スペクトル包絡パラメータ
により推定される時間的前方予測音声波形に加えて、時
間的に後方の後方予測音声波形を用いているので、雑音
の低減が図れ、音声の品質を大幅に改善できる。
データの伸張処理後あるいはスペクトル包絡パラメータ
の抽出後にその内容が更新されるようにしているので、
従来のように、固定的な内容のコードブックとは異な
り、処理対象音声片に対して、常に、最適な音声片が格
納されることになり、高品質な符号化が可能となる。
分音声片を有する音声片番号、その音声片内のどの部分
であるかを表す位置データ、振幅調整用のパラメータで
表されるデータに、場合によっては、スペクトル包絡パ
ラメータをも加えたデータで表すことができ、大幅なデ
ータ圧縮が可能となる。
しかも効率よく高品質な音声圧縮伸張が可能となり、ハ
ードウエア化や並列処理化を行う際にきわめて有利なも
のとすることができる。
を所定の区間切り出した例を示す図。
示す図。
ーチャート。
処理を説明する図。
明するフローチャート。
片を伸張処理後の音声波形より作成する例を説明する
図。
片をスペクトル包絡パラメータより推定される時間的前
方予測音声波形と時間的後方予測音声波形より作成する
例を説明する図。
の構成を示すブロック図。
片 p1 音声片における類似部分音声の位置
Claims (12)
- 【請求項1】 入力音声から所定区間の音声片を処理対
象音声片として切り出し、複数種類の音声片群含む音声
片表を参照し、その音声片表内のそれぞれの音声片と前
記処理対象音声片との類似性を比較して、最も類似度の
高い音声片を選択し、その選択された音声片についての
データを基に、前記処理対象音声片を符号化して符号化
データを作成する処理を含むことを特徴とする音声圧縮
伸張方法。 - 【請求項2】 前記符号化データを作成したのち、その
符号化データを伸張し、この伸張されたデータを前記処
理対象音声片から差し引いて残差を求め、その残差波形
に対して、前記複数種類の音声片群含む音声片表を参照
し、その音声片表内のそれぞれの音声片と前記残差波形
との類似性を比較する処理を1回以上行って、符号化デ
ータを得るようにしたことを特徴とする請求項1記載の
音声圧縮伸張方法。 - 【請求項3】 前記音声片表に格納される音声片は、前
記処理対象音声片よりも時間的に後方のすでに圧縮伸張
処理された音声波形を用いて作成された音声片、スペク
トル包絡パラメータにより推定される時間的前方予測音
声波形と時間的後方予測音声波形を用いて作成された音
声片、雑音成分により作成された音声片を少なくとも有
し、それぞれの音声片は、符号化されたデータの伸張処
理後あるいはスペクトル包絡パラメータの抽出後にその
内容が更新されることを特徴とする請求項1または2記
載の音声圧縮伸張方法。 - 【請求項4】 前記各音声片は、前記処理対象音声片よ
りも時間的に長い区間を有し、処理対象音声片との類似
度判定の際は、各音声片の長さの範囲において処理対象
音声片との類似性が判定され、最も類似度の高い部分を
有する音声片が選択されることを特徴とする請求項1か
ら3のいずれかに記載の音声圧縮伸張方法。 - 【請求項5】 前記符号化データは、前記最も類似度の
高い部分を有する音声片番号、その音声片内のどの部分
であるかを表す位置データ、振幅調整用のパラメータで
表されるデータであり、さらに、場合に応じて、スペク
トル包絡パラメータをも加えたデータであることを特徴
とする請求項4記載の音声圧縮伸張方法。 - 【請求項6】 入力音声からあらかじめ設定された所定
区間の音声片を処理対象音声片として切り出す音声片切
り出し部と、 入力音声からスペクトル包絡パラメータを抽出するスペ
クトル包絡パラメータ抽出部と、 複数種類の音声片を格納する音声片表と、 前記音声片表を参照し、その音声片表内のそれぞれの音
声片と前記処理対象音声片との類似性を比較して類似度
を求める類似度判定部と、 この類似度判定部による類似度に基づいて、最も類似度
の高い音声片を選択する音声片選択部と、 この音声片選択部により選択された音声片についてのデ
ータを基に前記処理対象音声片を符号化する符号化部
と、 この符号化部により符号化されたデータを符号化データ
として出力するとともに、場合によっては、前記符号化
部により符号化されたデータに前記スペクトル包絡パラ
メータ抽出部により抽出されたスペクトル包絡パラメー
タを加えた符号化データを作成して出力する符号化デー
タ出力部と、 を構成要件として含むことを特徴とする音声圧縮伸張装
置。 - 【請求項7】 さらに、前記符号化部により符号化され
たデータを伸張する伸張部と、 この伸張部により伸張されたデータを前記処理対象音声
片から差し引いて残差を求める残差生成部と、 前記伸張部により伸張されたデータあるいは前記スペク
トル包絡パラメータ抽出部により抽出されたスペクトル
包絡パラメータを用いて前記音声片表テーブルに格納さ
れた音声片の内容の更新を行う音声片更新部と、 を有することを特徴とする請求項6記載の音声圧縮伸張
装置。 - 【請求項8】 前記類似度判定部、音声片選択部、符号
化部、伸張部、残差生成部は、処理手順にループを形成
し、類似度判定、音声片選択、符号化、伸張、残差生成
処理を行って得られる残差波形に対して、前記音声片表
を参照し、その音声片表内のそれぞれの音声片と前記残
差波形との類似性を比較する処理を、1回以上行ったの
ち、符号化データを作成して出力することを特徴とする
請求項7記載の音声圧縮伸張装置。 - 【請求項9】 前記音声片表に格納される音声片は、前
記処理対象音声片よりも時間的に後方のすでに圧縮伸張
処理された音声波形を用いて作成された音声片、スペク
トル包絡パラメータにより推定される時間的前方予測音
声波形と時間的後方予測音声波形を用いて作成された音
声片、雑音成分により作成された音声片を少なくとも有
し、それぞれの音声片は、前記音声更新処理部によっ
て、伸張処理後あるいはスペクトル包絡パラメータの抽
出後にその内容が更新されることを特徴とする請求項6
から8のいずれかに記載の音声圧縮伸張装置。 - 【請求項10】 前記各音声片は、処理対象音声片より
も時間的に長い区間を有し、処理対象音声片との類似度
判定の際は、各音声片の長さの範囲において処理対象音
声片との類似性が判定され、最も類似度の高い部分を有
する音声片が選択されることを特徴とする請求項6から
9のいずれかに記載の音声圧縮伸張装置。 - 【請求項11】 前記符号化データは、前記最も類似度
の高い部分を有する音声片番号、その音声片内のどの部
分であるかを表す位置データ、振幅調整用のパラメータ
で表されるデータであり、さらに、場合に応じて、スペ
クトル包絡パラメータをも加えたデータであることを特
徴とする請求項10記載の音声圧縮伸張装置。 - 【請求項12】 音声圧縮伸張処理プログラムを記憶す
る記憶媒体において、その音声圧縮伸張処理プログラム
は、 入力音声から所定区間の音声片を処理対象音声片として
切り出し、複数種類の音声片群含む音声片表を参照し、
その音声片表内のそれぞれの音声片と前記処理対象音声
片との類似性を比較し、最も類似度の高い音声片を選択
して、選択された音声片についてのデータを基に前記処
理対象音声片を符号化し、場合に応じて、スペクトル包
絡パラメータをも加えた符号化データを作成する処理を
行うとともに、符号化されたデータの伸張処理後あるい
は前記スペクトラム包絡パラメータの抽出後に、前記音
声片表に格納されるそれぞれの音声片の内容を更新する
ことを特徴とする音声圧縮伸張処理プログラムを記憶し
た記憶媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP22351297A JP3661363B2 (ja) | 1997-08-20 | 1997-08-20 | 音声圧縮伸張方法および装置並びに音声圧縮伸張処理プログラムを記憶した記憶媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP22351297A JP3661363B2 (ja) | 1997-08-20 | 1997-08-20 | 音声圧縮伸張方法および装置並びに音声圧縮伸張処理プログラムを記憶した記憶媒体 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH1165599A true JPH1165599A (ja) | 1999-03-09 |
| JP3661363B2 JP3661363B2 (ja) | 2005-06-15 |
Family
ID=16799312
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP22351297A Expired - Fee Related JP3661363B2 (ja) | 1997-08-20 | 1997-08-20 | 音声圧縮伸張方法および装置並びに音声圧縮伸張処理プログラムを記憶した記憶媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3661363B2 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011128309A (ja) * | 2009-12-16 | 2011-06-30 | Casio Computer Co Ltd | 音声符号化装置、音声符号化方法及び音声符号化プログラム、並びに音声復号装置、音声復号方法及び音声復号プログラム |
| JP2011128310A (ja) * | 2009-12-16 | 2011-06-30 | Casio Computer Co Ltd | 音声符号化装置、音声符号化方法及び音声符号化プログラム、並びに音声復号装置、音声復号方法及び音声復号プログラム |
-
1997
- 1997-08-20 JP JP22351297A patent/JP3661363B2/ja not_active Expired - Fee Related
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011128309A (ja) * | 2009-12-16 | 2011-06-30 | Casio Computer Co Ltd | 音声符号化装置、音声符号化方法及び音声符号化プログラム、並びに音声復号装置、音声復号方法及び音声復号プログラム |
| JP2011128310A (ja) * | 2009-12-16 | 2011-06-30 | Casio Computer Co Ltd | 音声符号化装置、音声符号化方法及び音声符号化プログラム、並びに音声復号装置、音声復号方法及び音声復号プログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3661363B2 (ja) | 2005-06-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH06266390A (ja) | 波形編集型音声合成装置 | |
| EP0726560B1 (en) | Variable speed playback system | |
| JP3465628B2 (ja) | オーディオ信号の時間軸圧伸方法及び装置 | |
| WO2002086866A1 (en) | Compression method and apparatus, decompression method and apparatus, compression/decompression system, peak detection method, program, and recording medium | |
| US20090157397A1 (en) | Voice Rule-Synthesizer and Compressed Voice-Element Data Generator for the same | |
| EP1580895B1 (en) | Digital signal processing method, processor thereof, program thereof, and recording medium containing the program | |
| JPH1165599A (ja) | 音声圧縮伸張方法および装置並びに音声圧縮伸張処理プログラムを記憶する記憶媒体 | |
| JPH1069296A (ja) | 音声信号から特徴値を抽出する方法 | |
| US5621851A (en) | Method of expanding differential PCM data of speech signals | |
| JP2002049397A (ja) | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 | |
| JP3006507B2 (ja) | パターン間距離計算装置 | |
| JP3559485B2 (ja) | 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体 | |
| JP4461985B2 (ja) | 音声波形伸張装置、波形伸張方法、音声波形縮小装置、波形縮小方法、プログラム、並びに音声処理装置 | |
| JP4437703B2 (ja) | 話速変換方法および装置 | |
| JP6125808B2 (ja) | データ圧縮装置、データ圧縮プログラム、データ圧縮システム、およびデータ圧縮方法 | |
| JP6130128B2 (ja) | 圧縮データのデータ構造、記録媒体、データ圧縮装置、データ圧縮システム、データ圧縮プログラム、およびデータ圧縮方法 | |
| JP3648931B2 (ja) | 反復変換音声符号化方法および装置 | |
| JPH0879087A (ja) | 波形データ圧縮装置、波形データ圧縮方法、及び波形データ復調装置 | |
| JPH07302097A (ja) | 音声の時間軸圧縮方法、及び伸長方法、並びに音声の時間軸圧縮伸長方法 | |
| JPH09134196A (ja) | 音声符号化装置 | |
| JP3354338B2 (ja) | 音声符号化装置 | |
| JPS6136800A (ja) | 可変長フレ−ム音声分析合成方式 | |
| JP3261691B2 (ja) | 符号帳予備選択装置 | |
| JP3353482B2 (ja) | 音声符号化装置 | |
| JPH02135931A (ja) | 信号処理方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040528 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040803 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040928 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050118 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050202 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050301 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050314 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080401 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090401 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090401 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100401 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110401 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110401 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120401 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130401 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130401 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140401 Year of fee payment: 9 |
|
| LAPS | Cancellation because of no payment of annual fees |