JPH1165599A

JPH1165599A - 音声圧縮伸張方法および装置並びに音声圧縮伸張処理プログラムを記憶する記憶媒体

Info

Publication number: JPH1165599A
Application number: JP9223512A
Authority: JP
Inventors: Mitsuhiro Inazumi; 満広稲積
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1997-08-20
Filing date: 1997-08-20
Publication date: 1999-03-09
Anticipated expiration: 2017-08-20
Also published as: JP3661363B2

Abstract

(57)【要約】【課題】単純な処理で効率よくしかも高品質な音声圧
縮伸張を可能とするとともに、ハードウエア化や並列処
理化に有利なものとする。【解決手段】音声片切り出し部１によって所定区間の
音声片を処理対象音声片として切り出し、類似度判定部
３により複数種類の音声片群含む音声片表４を参照して
類似度を判定し、音声片選択部５によって、最も類似度
の高い部分を有する音声片を選択する。そして、符号化
部６により選択された音声片についてのデータを基に前
記処理対象音声片を符号化する。また、伸張処理を行っ
た後、あるいは、スペクトル包絡パラメータの抽出後
に、音声片更新部１１によって、前記音声片表に格納さ
れるそれぞれの音声片の内容を更新する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声信号を単純な
処理で効率的に圧縮伸張処理する音声圧縮伸張方法およ
び装置並びに音声圧縮伸張処理プログラムを記憶した記
憶媒体に関する。

【０００２】

【従来の技術】音声信号を圧縮伸張する際の符号化方法
として、従来より様々な方法が提案されている。その１
つとして、特開昭５９−１１６９７３（以下、第１の従
来技術という）がある。

【０００３】この第１の従来技術は、入力音声データを
短時間毎に分割して短時間音声信号系列を求める手段、
この短時間音声信号系列からスペクトル包絡パラメータ
を抽出するスペクトル包絡パラメータ抽出手段、このス
ペクトル包絡パラメータをもとにインパルス応答系列を
計算するするインパルス応答系列計算手段、このインパ
ルス応答系列を用いて自己相関関数列を計算する手段、
前記インパルス応答系列と短時間音声信号系列を用いて
相互相関関数列を計算する手段、前記自己相関関数列と
相互相関関数列を用いて駆動音源信号系列計算して符号
化する手段、スペクトル包絡符号と駆動音源信号とを組
み合わせて出力する手段とを有し、さらに、前記短時間
音声信号に対して予め定められた補正を加える目標信号
計算手段を有している。

【０００４】この第１の従来技術によれば、音声の符号
化を行うに際して、効率的に駆動音源パルスの位置とゲ
インを決定することができ、また、計算量、使用メモリ
量の削減にもある程度の効果は得られる。

【０００５】しかし、この第１の従来技術は、女性の声
のような音声信号を符号化したのち、音声合成を行う場
合、高品質な音声合成を得るには、駆動音源パルスをた
くさん抽出する必要があるため、圧縮率が悪くなるとい
う問題点があった。

【０００６】すなわち、女性の声は、男性の声に比べる
と複雑で、高精度な合成音を得るには、駆動音源パルス
をたくさん抽出する必要があり、結局は、圧縮率が悪い
ものとなってしまう。

【０００７】一方、高い圧縮率を得るための技術とし
て、特開昭６３−３７３９９（以下、第２の従来技術と
いう）、特開平３−４３００（以下、第３の従来技術と
いう）がある。

【０００８】第２の従来技術は、音声信号からピッチ推
定を行い、過去のパルス列からの推定値と実際の信号と
の残差を求め、この残差により駆動音源パルスを計算し
ようとするものである。

【０００９】また、第３の従来技術は、ピッチ推定を行
い、その１ピッチ区間分の駆動音源（マルチパルス）を
推定する。そして、そのマルチパルスのゲインと位相を
補正することによって、他のピッチ区間を補正すること
により他のピッチ区間を近似する。さらに、推定された
値と実際の値との残差より、第２のマルチパルスを推定
する。なお、マルチパルス信号の他に雑音コードブック
を用いる場合もある。

【００１０】

【発明が解決しようとする課題】前記した第２、第３の
従来技術は、同じ波形を繰り返す周期を求め、１つ前の
周期から次の周期を推定し、その推定した部分と現実の
音声波形との差分を計算して、その差分により駆動音源
を計算するため、高い圧縮率が実現できる。

【００１１】しかし、ピッチを求めたり差分を求めたり
する必要があるため計算量が多く、また、それらのデー
タを蓄えるために大きな容量のメモリが必要になるとい
う問題点がある。

【００１２】また、残差を求め、この残差により駆動音
源パルスを計算するため、データの一部が失われた場
合、失われたデータ部分がそれ以降の計算に大きな影響
を与えることになり、高精度な音声合成が行えなくなる
という大きな問題点がある。

【００１３】このように、従来の技術は、それぞれにお
いて種々の問題点がある。たとえば、第１の従来技術
は、駆動音源パルスを求めるための基本的な技術ではあ
るが、合成音の品質を上げようとすると、多くの駆動音
源パルスを立てる必要があり、女性の声のような音声デ
ータに対しては特に圧縮率が悪くなるという問題があ
る。また、第２の従来技術と、第３の従来技術は高圧縮
率が得られるが、計算量が多く、使用メモリ量も多いと
いう問題があり、さらに、差分情報を用いるためデータ
欠落に弱いという問題がある。

【００１４】最近では音声データを扱う携帯用の情報機
器が広い分野で用いられるようになってきている。この
種の携帯用情報機器は、ＣＰＵの計算速度やメモリ容量
には大きな制約があるため、計算量や使用メモリ量が多
いということは重大な問題である。また、差分情報を用
いる方法は、データの欠落を考慮する必要のある情報機
器においては製品の性能向上の面で問題が多く、携帯機
器に限らず、コンピュータネットワーク上のリアルタイ
ム伝送などにおいても、データの欠落が、伝送されるデ
ータに大きな影響を与えることにもなる。

【００１５】以上述べたように、従来のそれぞれの音声
符号化方法は、処理が複雑であることが共通しており、
ハードウエア化、並列処理による高速化が相対的に困難
であるという問題点がある。特に、ピッチ周期を求める
処理を含むものは、計算量が多く、また、誤りが発生し
た場合の影響が大きい。さらに、従来のスペクトル包絡
パラメータによるインパルス応答と、駆動パルスを用い
る方法は、パルスの前後に不連続を生じ、これが雑音と
なって現れるという問題点がある。

【００１６】そこで、本発明は、処理内容が単純で、ハ
ードウエア化、並列処理化を容易に可能とし、かつ、効
率のよい符号化が可能で、比較的高い圧縮率での音声デ
ータ圧縮を可能とする音声圧縮伸張方法および装置並び
に音声圧縮伸張処理プログラムを記憶した記憶媒体を提
供することを目的とする。

【００１７】

【課題を解決するための手段】本発明の請求項１に記載
された音声圧縮伸張方法は、入力音声から所定区間の音
声片を処理対象音声片として切り出し、複数種類の音声
片群含む音声片表を参照し、その音声片表内のそれぞれ
の音声片と前記処理対象音声片との類似性を比較して、
最も類似度の高い音声片を選択し、その選択された音声
片についてのデータを基に、前記処理対象音声片を符号
化して符号化データを作成する処理を含むことを特徴と
している。

【００１８】請求項２の発明は、請求項１の発明におい
て、符号化データを作成したのち、その符号化データを
伸張し、この伸張されたデータを前記処理対象音声片か
ら差し引いて残差を求め、その残差波形に対して、前記
複数種類の音声片群含む音声片表を参照し、その音声片
表内のそれぞれの音声片と前記残差波形との類似性を比
較する処理を1回以上行って符号化データを得るように
している。

【００１９】そして、請求項３の発明は、請求項１また
は２の発明において、前記音声片表に格納される音声片
は、前記処理対象音声片よりも時間的に後方のすでに圧
縮伸張処理された音声波形を用いて作成された音声片、
スペクトル包絡パラメータにより推定される時間的前方
予測音声波形と時間的後方予測音声波形を用いて作成さ
れた音声片、雑音成分により作成された音声片を少なく
とも有し、それぞれの音声片は、符号化されたデータの
伸張処理後あるいはスペクトル包絡パラメータの抽出後
にその内容が更新されるようにしている。

【００２０】また、請求項４の発明は、請求項１から３
のいずれかの発明において、前記各音声片は、前記処理
対象音声片よりも時間的に長い区間を有し、処理対象音
声片との類似度判定の際は、各音声片の長さの範囲にお
いて処理対象音声片との類似性が判定され、最も類似度
の高い部分を有する音声片が選択されるようにしてい
る。

【００２１】また、請求項５の発明は、請求項４の発明
において、前記符号化データは、前記最も類似度の高い
部分を有する音声片番号、その音声片内のどの部分であ
るかを表す位置データ、振幅調整用のパラメータで表さ
れるデータであり、さらに、場合に応じて、スペクトル
包絡パラメータをも加えたデータである。

【００２２】また、請求項６に記載の本発明の音声圧縮
伸張装置は、入力音声からあらかじめ設定された所定区
間の音声片を処理対象音声片として切り出す音声片切り
出し部と、入力音声からスペクトル包絡パラメータを抽
出するスペクトル包絡パラメータ抽出部と、複数種類の
音声片を格納する音声片表と、前記音声片表を参照し、
その音声片表内のそれぞれの音声片と前記処理対象音声
片との類似性を比較して類似度を求める類似度判定部
と、この類似度判定部による類似度に基づいて、最も類
似度の高い音声片を選択する音声片選択部と、この音声
片選択部により選択された音声片についてのデータを基
に前記処理対象音声片を符号化する符号化部と、この符
号化部により符号化されたデータを符号化データとして
出力するとともに、場合によっては、前記符号化部によ
り符号化されたデータに前記スペクトル包絡パラメータ
抽出部により抽出されたスペクトル包絡パラメータを加
えた符号化データを作成して出力する符号化データ出力
部とを構成要件として含むものである。

【００２３】請求項７の発明は、さらに、これに加え
て、符号化部により符号化されたデータを伸張する伸張
部と、この伸張部により伸張されたデータを前記処理対
象音声片から差し引いて残差を求める残差生成部と、前
記伸張部により伸張されたデータあるいは前記スペクト
ル包絡パラメータ抽出部により抽出されたスペクトル包
絡パラメータを用いて前記音声片表に格納された音声片
の内容の更新を行う音声片更新部とを有する構成として
いる。

【００２４】そして、請求項８の発明は、請求項７の発
明において、前記類似度判定部、音声片選択部、符号化
部、伸張部、残差生成部は、処理手順にループを形成
し、類似度判定、音声片選択、符号化、伸張、残差生成
処理を行って得られる残差波形に対して、前記音声片表
テーブルを参照し、その音声片表テーブル内のそれぞれ
の音声片と前記残差波形との類似性を比較する処理を、
1回以上行ったのち、符号化データを作成して出力する
ようにしている。

【００２５】また、請求項９の発明は、請求項６から８
のいずれかの発明において、前記音声片表に格納される
音声片は、前記処理対象音声片よりも時間的に後方のす
でに圧縮伸張処理された音声波形を用いて作成された音
声片、スペクトル包絡パラメータにより推定される時間
的前方予測音声波形と時間的後方予測音声波形を用いて
作成された音声片、雑音成分により作成された音声片を
少なくとも有し、それぞれの音声片は、前記音声更新処
理部によって、伸張処理後あるいはスペクトル包絡パラ
メータの抽出後にその内容が更新されるようにしてい
る。

【００２６】請求項１０の発明は、請求項６から９のい
ずれかの発明において、前記各音声片は、前記処理対象
音声片よりも時間的に長い区間を有し、処理対象音声片
との類似度判定の際は、各音声片の長さの範囲において
処理対象音声片との類似性が判定され、最も類似度の高
い部分を有する音声片が選択されるようにしている。

【００２７】また、請求項１１の発明は、請求項１０の
発明において、前記符号化データは、前記最も類似度の
高い部分を有する音声片番号、その音声片内のどの部分
であるかを表す位置データ、振幅調整用のパラメータで
表されるデータであり、さらに、場合に応じて、スペク
トル包絡パラメータをも加えたデータである。

【００２８】さらに、請求項１２に記載の音声圧縮伸張
処理プログラムを記憶した記憶媒体の発明は、その音声
圧縮伸張処理プログラムは、入力音声から所定区間の音
声片を処理対象音声片として切り出し、複数種類の音声
片群含む音声片表を参照し、その音声片表内のそれぞれ
の音声片と前記処理対象音声片との類似性を比較し、最
も類似度の高い音声片を選択して、選択された音声片に
ついてのデータを基に前記処理対象音声片を符号化し、
場合に応じて、スペクトル包絡パラメータをも加えた符
号化データを作成する処理を行うとともに、符号化され
たデータの伸張処理後あるいは前記スペクトラム包絡パ
ラメータの抽出後に、前記音声片表に格納されるそれぞ
れの音声片の内容を更新する処理を行うものである。

【００２９】このように、本発明では、音声片表内のそ
れぞれの音声片と入力音声から切り出した処理対象音声
片（たとえば、４msec程度の長さの音声片）との類似性
を比較し、最も類似度の高い音声片を選択し、その選択
された音声片についてのデータを基に前記処理対象音声
片を符号化するという処理を基本処理として行うように
している。これにより、符号化がきわめて単純な処理で
可能となるため、ハードウエア化、並列処理化を行う際
に有利なものとすることができる。

【００３０】また、符号化データを作成したのち、その
符号化データの伸張処理、伸張されたデータを前記処理
対象音声片から差し引く残差生成処理、その残差波形に
対して、再び、音声片表を参照し、類似性を求めるとい
う処理を1回以上行って符号化データを得ることによ
り、より一層、高精度な符号化データを得ることができ
る。

【００３１】また、音声片表に格納される音声片は、処
理対象音声片よりも時間的に後方のすでに圧縮伸張処理
された音声波形を用いて作成された音声片、スペクトル
包絡パラメータにより推定される時間的前方予測音声波
形と時間的後方予測音声波形を用いて作成された音声
片、雑音成分により作成された音声片を少なくとも有す
ることで、入力音声を符号化する際、効率よく、しかも
高精度な符号化が可能となる。特に、スペクトル包絡パ
ラメータにより推定される予測音声波形を用いる場合、
従来では、時間的前方予測音声波形（インパルス応答）
のみを用いることが一般的であるが、本発明は、スペク
トル包絡パラメータにより推定される時間的前方予測音
声波形と時間的後方予測音声波形を用いて音声片を作成
するようにしている。

【００３２】このように、前方予測音声波形に加えて、
時間的に後方の後方予測音声波形を用いると、雑音の低
減を図れる効果がある。すなわち、インパルス応答（前
方予測音声波形）のみを用いた音声片とした場合、音声
レベルが殆ど０の状態から急激に波形が立ち上がった音
声片となってしまうため、その音声片を用いて圧縮伸張
処理したとき、不連続点が生じることによってその部分
が雑音となって現れるという問題点がある。これに対し
て、時間的に後方の後方予測音声波形を用いると不連続
点を限りなく小さくすることができ、圧縮伸張音声の品
質を大幅に改善できる。

【００３３】また、それぞれの音声片は、符号化された
データの伸張処理後あるいはスペクトル包絡パラメータ
の抽出後にその内容が更新されるようにしているので、
従来のように、固定的な内容のコードブックとは異な
り、処理対象音声片に対して、常に、最適な音声片が格
納されることになり、高品質な符号化が可能となる。

【００３４】また、前記符号化されたデータは、類似部
分音声片を有する音声片番号、その音声片内のどの部分
であるかを表す位置データ、振幅調整用のパラメータで
表されるデータに、場合によっては、スペクトル包絡パ
ラメータをも加えたデータで表すことができる。したが
って、符号化後のデータは数バイト程度のデータとな
り、大幅なデータ圧縮が可能となる。なお、一般には、
音声は急激に変化することは少ないので、処理対象音声
片それぞれが４msec程度として考えた場合、スペクトル
包絡パラメータの変化は緩やかであり、処理対象の音声
片の１０個に１回程度の頻度でスペクトル包絡パラメー
タを抽出することで十分な精度が得られる、したがっ
て、スペクトル包絡パラメータを加えたとしても大幅に
圧縮されたデータとすることができる。

【００３５】

【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。具体的な実施の形態を説明する前に、ま
ず、本発明の実施の形態の基本的な処理内容について説
明する。

【００３６】図１は入力音声波形を示すもので、このよ
うな入力音声波形から、たとえば、４msec程度の音声片
の切り出しを行う。この切り出された音声片（以下、処
理対象音声片という）ｈ１を音声片表に格納されている
音声片と比較し、最も類似度の高い音声片を音声片表の
中から選択し、選択された音声片を用いて符号化データ
を作成する。なお、処理対象音声片を４msecとしたの
は、この実施の形態において使用したシステムでは、４
msec程度の長さで切り出すのが最もよい結果が得られる
からである。つまり、処理理対象音声片の長さが４msec
よりも短くなると、音質的には向上するが、圧縮率の低
下につながり、また、４msecよりも長くなると、圧縮率
的には有利となるが、音質的な劣化につながるおそれが
あるからである。

【００３７】ところで、ここで言う音声片表というの
は、図２に示すような複数の要素から作成された音声片
（この例では、Ａ１〜Ａ４の４つの音声片）を有するも
ので、これらの音声片の作成方法については後に説明す
る。なお、音声片表には常に最新の音声片が格納される
ものであり、図２に示す音声片表は、或る時刻における
音声片表の内容を示すものである。

【００３８】今、この図２に示す音声片表が最新の内容
であるとすれば、図１において、切り出された４msec程
度の処理対象音声片ｈ１が、音声片表の中のどの音声片
のどの部分に最も類似しているかを判断する。この場
合、処理対象音声片ｈ１は、音声片表の音声片Ａ２の位
置ｐ１からの部分が最も類似していると判定される。な
お、この最も類似している部分を、類似部分と呼ぶこと
にする。

【００３９】これにより、処理対象音声片ｈ１の符号化
データは、音声片表の音声片番号Ａ２、位置ｐ１、音声
レベルを合わせるための倍率によって表すことができ
る。

【００４０】すなわち、音声片表の音声片番号は、この
場合、Ａ１〜Ａ４の４つが存在するため、２ビットであ
らわすことができ、位置ｐ１は、それぞれの音声片の長
さを１６msecとすれば１２８サンプリング点（サンプリ
ング周波数が８ｋＨｚであるとする）であるため、７ビ
ットで表すことができる。また、音声レベルの高さを合
わせるために、たとえば、１２８段階で調整するとすれ
ば、やはり７ビットで表すことができる。したがって、
これらを合計すると、１６ビット、つまり、２バイトの
データとして表現できる。

【００４１】これに対して、処理対象音声片ｈ１は、各
サンプリング点それぞれに２バイト程度のデータ量があ
るとすれば、サンプリング点の数が３２個であると、６
４バイトのデータ量が存在することになる。したがっ
て、符号化後のデータ量は、元のデータに対して、１／
３２となる。

【００４２】また、スペクトル包絡パラメータを使用す
る場合は、そのデータとして、4.5バイト程度必要であ
る。ただし、一般には、音声は急激に変化することは少
ないので、処理対象音声片それぞれが４msec程度として
考えた場合、スペクトル包絡パラメータの変化は緩やか
であり、処理対象音声片の１０個に１回程度の頻度でス
ペクトル包絡パラメータを抽出することで十分な精度が
得られる、したがって、スペクトル包絡パラメータを加
えたとしても、その符号化データは元のデータに対して
大幅に圧縮されたデータとすることができる。

【００４３】このように、本発明では、処理そのものは
単純であり、しかも効率のよい音声データの圧縮が可能
となる。

【００４４】次に本発明の具体的な実施の形態について
説明する。

【００４５】図３は本発明の実施の形態の処理手順を説
明するフロ−チャ−トである。図３において、まず、入
力音声から４msec程度の処理対象音声片ｈ１を切り出す
（ステップｓ１）。この処理は、前述の図１により説明
した処理である。そして、スペクトル包絡パラメータを
抽出するか否かを判断し（ステップｓ２）、スペクトル
包絡パラメータを必要とする場合は、スペクトル包絡パ
ラメータの抽出を行う（ステップｓ３）。なお、前述し
たように、音声は急激に変化することは少ないので、切
り出される処理対象音声片それぞれが４msec程度として
考えた場合、スペクトル包絡パラメータの変化は緩やか
である。したがって、処理対象音声片の１０個に１回程
度の頻度でスペクトル包絡パラメータを抽出することで
十分な精度が得られる。

【００４６】そして、次のステップｓ４において、その
時点における音声片表を参照して、最も類似度の高い類
似部分を有する音声片を選択する。たとえば、或る時点
における処理対象音声片ｈ１に対して、その時点の音声
片表の内容が図２に示す内容であったとすると、処理対
象音声片ｈ１は、音声片表の音声片Ａ２の位置ｐ１から
の部分が最も類似していると判定され、その音声片Ａ２
が類似部分を有する音声片として選択される。

【００４７】次に、選択された音声片Ａ２についてのデ
ータ（音声片番号、位置、音声レベルを合わせるための
倍率）などに基づいて符号化処理を行う（ステップｓ
５）。

【００４８】そして、圧縮処理が終了であるか否かを判
断して（ステップｓ６）、圧縮処理が終了であれば、ス
テップｓ５にて符号化処理した符号化データを出力し
（ステップｓ７）、入力音声についてすべての圧縮処理
が終了か否かを判断して（ステップｓ８）、終了であれ
ば処理を終了とし、まだ、終了していなければ、ステッ
プｓ１に戻る。

【００４９】一方、ステップｓ６において、圧縮処理終
了でなければ、伸張処理（ステップｓ９）、残差生成処
理（ステップｓ１０）を行ったのち、ステップｓ４に処
理が戻り、ステップｓ４からステップｓ１０で形成され
るループ処理を行う。以下、このループ処理について説
明する。

【００５０】前述したように、たとえば、処理対象音声
片ｈ１に対して音声片表の音声片Ａ２の位置ｐ１からの
部分が最も類似していると判定され、その類似部分を有
する音声片Ａ２が選択されたとする。そして、選択され
た音声片Ａ２についてのデータ（音声片番号、位置、音
声レベルを合わせるための倍率）などに基づいて符号化
処理を行う。この段階で圧縮処理を終了としないで、同
じ処理を何回か繰り返す。つまり、ステップｓ５におい
て符号化されたあと、符号化されたデータを、一旦、伸
張処理し（ステップｓ７）、その後、残差生成処理を行
う（ステップ８）。

【００５１】この残差生成処理というのは、符号化され
て伸張された音声データを、元の入力音声（この場合、
処理対象音声片ｈ１）から差し引いて、その差分を取る
処理である。つまり、図４に示すように、処理対象音声
片ｈ１から伸張処理された音声データＨ１を引いて、そ
の残差ｄ１を求める。そして、求められた残差ｄ１につ
いて、その時点における音声片表を参照して、最も類似
度の高い部分（類似部分）を有する音声片を選択すると
いう処理を行う。このような処理を1回以上行うことに
より、より一層、高精度な圧縮データが得られるが、２
回程度でも十分な精度が得られる。

【００５２】ところで、ステップｓ９にて行われる伸張
処理は、図５のフロ−チャ−トに示されるような処理手
順にて行われる。

【００５３】すなわち、符号化されたデータを入力し
（ステップ１１）、スペクトル包絡パラメータの更新か
否かを判断する（ステップｓ１２）。つまり、スペクト
ル包絡パラメータが抽出されている場合は、これまでの
スペクトル包絡パラメータの値を新たなスペクトル包絡
パラメータの値に更新する（ステップｓ１３）。

【００５４】次に、その時点における音声片表を参照し
て、符号化データに基づいて最も類似度の高い部分（類
似部分）を有する音声片を選択する（ステップｓ１
４）。そして、選択された音声片データに基づいて伸張
データを作成する（ステップｓ１５）。そして、処理が
終了したか否かを判断する（ステップｓ１６）。処理終
了でなければ、ステップｓ１５にて伸張処理されたデー
タを用いて、それまでの音声片表の内容を、この新たな
音声片によって更新する（ステップｓ１７）。

【００５５】そして、さらに符号化データ存在すれば、
その符号化データに対して、同様の処理が行われる。

【００５６】なお、この伸張処理は、図３の処理手順の
一つとしてだけ用いられるのではなく、伸張処理単独で
も用いられる。たとえば、符号化されたデータが所定の
メモリに蓄えられている場合、その符号化されたデータ
を伸張処理する場合にも用いられる。

【００５７】このようにして伸張処理が終了すると、図
３のフローチャートにおいては、残差生成を行う（ステ
ップｓ１０）。つまり、前述したように、図４に示すよ
うに、音声片ｈ１から伸張処理された音声データＨ１を
引いて、その残差ｄ１を求める。そして、求められた残
差ｄ１について、その時点における音声片表（伸張処理
後に新たに更新された音声片表）を参照して、最も類似
度の高い部分（類似部分）を有する音声片を選択すると
いう処理を行う。このような処理を1回以上行うことに
より、より一層、高精度な圧縮データが得られるが、前
述の如く、２回程度でも十分な精度が得られる。

【００５８】ところで、以上の処理で用いられる音声片
表は、少なくとも以下に示す要素により作成された音声
片を含むものである。

【００５９】（１）現在、切り出された処理対象音声片
に対し、すでに圧縮伸張処理された音声データ（処理対
象音声片に対し、時間的に後方の圧縮伸張処理された音
声データ）を用いる。なお、ここでは、すでに過ぎ去っ
た時間を時間的に後方といい、これから先の時間を時間
的に前方という表現を用いる。

【００６０】たとえば、入力音声が図６（ａ）であると
し、ある時刻ｔ１までの入力音声がすでに圧縮伸張処理
され、その圧縮伸張処理された音声波形が図６（ｂ）の
ようであったとする。そして、現在、処理対象音声片が
ｈ１であったとすると、その処理対象音声片ｈ１に対し
ては、図６（ｂ）に示す圧縮伸張された音声波形の所定
部分（処理対象音声片ｈ１に対する直前の圧縮伸張され
た音声波形）を音声片として用いる。これは、図２に示
す音声片表においては、たとえば、Ａ２の音声片に相当
する。なお、その音声片の時間的な長さは、１６msec程
度とする。

【００６１】（２）処理対象音声片の近傍のスペクトル
包絡パラメータより推定される時間的前方予測音声波形
およびそれと連続する時間的後方予測音声波形を用い
る。

【００６２】前にも述べたように、スペクトル包絡パラ
メータは、切り出された音声片ごとに送る必要はない。
これは、音声は急激には変化することは殆どないと考え
られるためであり、たとえば、数個から十数個の処理対
象音声片に対して１回というような割合でスペクトル包
絡パラメータを送ればよい。そういう意味で、ここで
は、処理対象音声片の“近傍”のスペクトル包絡パラメ
ータという表現を用いている。

【００６３】なお、この現在処理対象音声片の近傍のス
ペクトル包絡パラメータより推定される時間的前方予測
音声波形およびそれと連続する時間的後方予測音声波形
というのは、図７に示すように、インパルス応答（前方
予測音声波形）ｘ１に加えて、時間的に後方の後方予測
音声波形ｘ２を指している。

【００６４】このように、インパルス応答（前方予測音
声波形）に加えて、時間的に後方の後方予測音声波形を
用いると、雑音の低減を図れる効果がある。すなわち、
インパルス応答（前方予測音声波形）のみを用いた音声
片とした場合、音声レベルが殆ど０の状態から急激に波
形が立ち上がった音声片となってしまうため、その音声
片を用いて圧縮伸張処理したとき、不連続点が生じるこ
とによってその部分が雑音となって現れるという問題点
がある。これに対して、時間的に後方の後方予測音声波
形を用いると不連続点を限りなく小さくすることがで
き、圧縮伸張音声の品質を大幅に改善できる。

【００６５】（３）雑音波形を用いる。

【００６６】この雑音波形は乱数で与えられたものでも
よく、また、実際の入力音声中からサンプル化されたも
のを用いてもよい。

【００６７】以上のように、本発明で使用する音声片表
の内容としては、（１）〜（３）で説明した音声片を少
なくとも含むものとする。そして、これら各音声片は１
６msec程度の長さの音声片として、たとえば、図２に示
すような状態で保持され、常に、最新のデータが蓄えら
れる。

【００６８】図８は本発明の音声圧縮伸張装置の構成を
示すブロック図である。図８において、音声入力部１か
ら入力された音声は、音声切り出し部２によって、前述
したように、たとえば、４msec程度の処理対象音声片と
して切り出される。この切り出された処理対象音声片
は、類似度判定部３によって、音声片表４内の幾つかの
音声片ａ１，ａ２，・・・，Ａｎと比較され類似度を得
る。そして、音声片選択部５によって最も類似度の高い
部分（類似部分）を有する音声片が選択される。

【００６９】符号化部６は、選択された音声片について
のデータ（音声片番号、位置、音声レベルを合わせるた
めの倍率）などに基づいて符号化処理を行う。なお、こ
の段階で符号化処理を終了とすれば、その符号化データ
を符号化データ出力部７から出力する。また、このと
き、スペクトル包絡パラメータを用いる場合は、スペク
トル包絡パラメータ抽出部８によって抽出されたスペク
トル包絡パラメータを加えた符号化処理を行う。

【００７０】一方、符号化処理終了でなければ、符号化
部７で符号化された符号化データを伸張部９によって伸
張処理し、残差生成部１０にて残差生成処理を行う。こ
の伸張処理と残差生成処理は図４におけるフローチャー
トのステップｓ９とステップｓ１０の処理である。

【００７１】この残差生成処理というのは、前述したよ
うに、符号化されて伸張された音声データを元の入力音
声（この場合、処理対象音声片ｈ１）から差し引いて、
その差分を取る処理である。つまり、図４に示すよう
に、音声片ｈ１から伸張処理された音声データＨ１を引
いて、その残差ｄ１を求めるものである。そして、求め
られた残差について、その時点における音声片表を参照
して、最も類似度の高い類似部分音声片を選択するとい
う処理を行う。

【００７２】なお、前記伸張部９にて行われる伸張処理
は、図５のフロ−チャ−トに示されるような処理手順に
て行われる。そして、伸張処理された音声データを用い
て、音声片更新部１１が音声片表４の内容の更新を行
う。また、この音声片更新部１１は、スペクトル包絡パ
ラメータ抽出部８からスペクトル包絡パラメータが抽出
された場合は、そのスペクトル包絡パラメータにより推
定される時間的前方予測音声波形およびそれと連続する
時間的な後方予測音声波形をも更新する。このようにし
て、音声片表４の内容は常に最新の音声片が格納される
ことになる。

【００７３】このような構成の音声圧縮伸張装置の全体
的な動作については、図４のフローチャートで説明した
ので、ここではその動作についての説明は省略する。

【００７４】なお、本発明は前述の実施の形態に限定さ
れるものではなく、本発明の要旨を逸脱しない範囲で種
々変形実施可能となるものである。たとえば、切り出さ
れる処理対象音声片は、前述の実施の形態では、４msec
としたが、これは、前述の実施の形態において使用した
システムでは、４msecとすることで最もよい結果が得ら
れたからである。しかし、使用するシステムなどによっ
ては、この数値は異なる場合もあるので、これに限定さ
れるものではなく、本発明が適用されるシステムに応じ
て最適な時間を設定することができる。また、図２で示
した音声片表の内容は一例であって、これに限られるも
のではない。

【００７５】また、以上説明した本発明の音声圧縮伸張
処理を行う処理プログラムは、フロッピィディスク、光
ディスク、ハードディスクなどの記憶媒体に記憶させて
置くことが出来、本発明は、これらの記憶媒体をも含む
ものであり、また、ネットワークからデータを得る方式
でもよい。

【００７６】

【発明の効果】以上説明したように、本発明によれば、
音声片表内のそれぞれの音声片と入力音声から切り出し
た処理対象音声片との類似性を比較し、最も類似度の高
い音声片を選択し、その選択された音声片についてのデ
ータを基に前記処理対象音声片を符号化する処理を基本
処理として行うようにしている。これにより、符号化が
きわめて単純な処理で可能となる。

【００７７】また、符号化データを作成したのち、その
符号化データの伸張処理を行い、伸張されたデータを前
記処理対象音声片から差し引いて得られた残差波形に対
して、再び、音声片表を参照し、類似性を求めるという
処理を複数回行って符号化データを得ることにより、よ
り一層、高品質な符号化データを得ることができる。

【００７８】また、音声片表に格納される音声片は、処
理対象音声片よりも時間的に後方のすでに圧縮伸張処理
された音声波形を用いて作成された音声片、スペクトル
包絡パラメータにより推定される時間的前方予測音声波
形と時間的後方予測音声波形を用いて作成された音声
片、雑音成分により作成された音声片を少なくとも有す
ることで、入力音声を符号化する際、効率よく、しかも
高品質な符号化が可能となる。特に、スペクトル包絡パ
ラメータにより推定される予測音声波形により音声片を
作成する場合、本発明では、スペクトル包絡パラメータ
により推定される時間的前方予測音声波形に加えて、時
間的に後方の後方予測音声波形を用いているので、雑音
の低減が図れ、音声の品質を大幅に改善できる。

【００７９】また、それぞれの音声片は、符号化された
データの伸張処理後あるいはスペクトル包絡パラメータ
の抽出後にその内容が更新されるようにしているので、
従来のように、固定的な内容のコードブックとは異な
り、処理対象音声片に対して、常に、最適な音声片が格
納されることになり、高品質な符号化が可能となる。

【００８０】また、前記符号化されたデータは、類似部
分音声片を有する音声片番号、その音声片内のどの部分
であるかを表す位置データ、振幅調整用のパラメータで
表されるデータに、場合によっては、スペクトル包絡パ
ラメータをも加えたデータで表すことができ、大幅なデ
ータ圧縮が可能となる。

【００８１】このように、本発明は、処理内容が単純で
しかも効率よく高品質な音声圧縮伸張が可能となり、ハ
ードウエア化や並列処理化を行う際にきわめて有利なも
のとすることができる。

【図面の簡単な説明】

【図１】本発明の実施の形態を説明するために入力音声
を所定の区間切り出した例を示す図。

【図２】本発明の実施の形態における音声片表の一例を
示す図。

【図３】本発明の実施の形態の処理手順を説明するフロ
ーチャート。

【図４】本発明の実施の形態における残差成分を求める
処理を説明する図。

【図５】本発明の実施の形態における伸張処理手順を説
明するフローチャート。

【図６】本発明の実施の形態における音声片表内の音声
片を伸張処理後の音声波形より作成する例を説明する
図。

【図７】本発明の実施の形態における音声片表内の音声
片をスペクトル包絡パラメータより推定される時間的前
方予測音声波形と時間的後方予測音声波形より作成する
例を説明する図。

【図８】本発明の実施の形態における音声圧縮伸張装置
の構成を示すブロック図。

【符号の説明】

１音声入力部２音声片切り出し部３類似度判定部４音声片表５音声片選択部６符号化部７符号化データ出力部８スペクトル包絡パラメータ抽出部９伸張部１０残差生成部１１音声片更新部ｈ１処理対象音声片Ａ１，Ａ２，Ａ３，Ａ４音声片表内に格納された音声
片ｐ１音声片における類似部分音声の位置

Claims

【特許請求の範囲】

【請求項１】入力音声から所定区間の音声片を処理対
象音声片として切り出し、複数種類の音声片群含む音声
片表を参照し、その音声片表内のそれぞれの音声片と前
記処理対象音声片との類似性を比較して、最も類似度の
高い音声片を選択し、その選択された音声片についての
データを基に、前記処理対象音声片を符号化して符号化
データを作成する処理を含むことを特徴とする音声圧縮
伸張方法。
【請求項２】前記符号化データを作成したのち、その
符号化データを伸張し、この伸張されたデータを前記処
理対象音声片から差し引いて残差を求め、その残差波形
に対して、前記複数種類の音声片群含む音声片表を参照
し、その音声片表内のそれぞれの音声片と前記残差波形
との類似性を比較する処理を1回以上行って、符号化デ
ータを得るようにしたことを特徴とする請求項１記載の
音声圧縮伸張方法。
【請求項３】前記音声片表に格納される音声片は、前
記処理対象音声片よりも時間的に後方のすでに圧縮伸張
処理された音声波形を用いて作成された音声片、スペク
トル包絡パラメータにより推定される時間的前方予測音
声波形と時間的後方予測音声波形を用いて作成された音
声片、雑音成分により作成された音声片を少なくとも有
し、それぞれの音声片は、符号化されたデータの伸張処
理後あるいはスペクトル包絡パラメータの抽出後にその
内容が更新されることを特徴とする請求項１または２記
載の音声圧縮伸張方法。
【請求項４】前記各音声片は、前記処理対象音声片よ
りも時間的に長い区間を有し、処理対象音声片との類似
度判定の際は、各音声片の長さの範囲において処理対象
音声片との類似性が判定され、最も類似度の高い部分を
有する音声片が選択されることを特徴とする請求項１か
ら３のいずれかに記載の音声圧縮伸張方法。
【請求項５】前記符号化データは、前記最も類似度の
高い部分を有する音声片番号、その音声片内のどの部分
であるかを表す位置データ、振幅調整用のパラメータで
表されるデータであり、さらに、場合に応じて、スペク
トル包絡パラメータをも加えたデータであることを特徴
とする請求項４記載の音声圧縮伸張方法。
【請求項６】入力音声からあらかじめ設定された所定
区間の音声片を処理対象音声片として切り出す音声片切
り出し部と、入力音声からスペクトル包絡パラメータを抽出するスペ
クトル包絡パラメータ抽出部と、複数種類の音声片を格納する音声片表と、前記音声片表を参照し、その音声片表内のそれぞれの音
声片と前記処理対象音声片との類似性を比較して類似度
を求める類似度判定部と、この類似度判定部による類似度に基づいて、最も類似度
の高い音声片を選択する音声片選択部と、この音声片選択部により選択された音声片についてのデ
ータを基に前記処理対象音声片を符号化する符号化部
と、この符号化部により符号化されたデータを符号化データ
として出力するとともに、場合によっては、前記符号化
部により符号化されたデータに前記スペクトル包絡パラ
メータ抽出部により抽出されたスペクトル包絡パラメー
タを加えた符号化データを作成して出力する符号化デー
タ出力部と、を構成要件として含むことを特徴とする音声圧縮伸張装
置。
【請求項７】さらに、前記符号化部により符号化され
たデータを伸張する伸張部と、この伸張部により伸張されたデータを前記処理対象音声
片から差し引いて残差を求める残差生成部と、前記伸張部により伸張されたデータあるいは前記スペク
トル包絡パラメータ抽出部により抽出されたスペクトル
包絡パラメータを用いて前記音声片表テーブルに格納さ
れた音声片の内容の更新を行う音声片更新部と、を有することを特徴とする請求項６記載の音声圧縮伸張
装置。
【請求項８】前記類似度判定部、音声片選択部、符号
化部、伸張部、残差生成部は、処理手順にループを形成
し、類似度判定、音声片選択、符号化、伸張、残差生成
処理を行って得られる残差波形に対して、前記音声片表
を参照し、その音声片表内のそれぞれの音声片と前記残
差波形との類似性を比較する処理を、1回以上行ったの
ち、符号化データを作成して出力することを特徴とする
請求項７記載の音声圧縮伸張装置。
【請求項９】前記音声片表に格納される音声片は、前
記処理対象音声片よりも時間的に後方のすでに圧縮伸張
処理された音声波形を用いて作成された音声片、スペク
トル包絡パラメータにより推定される時間的前方予測音
声波形と時間的後方予測音声波形を用いて作成された音
声片、雑音成分により作成された音声片を少なくとも有
し、それぞれの音声片は、前記音声更新処理部によっ
て、伸張処理後あるいはスペクトル包絡パラメータの抽
出後にその内容が更新されることを特徴とする請求項６
から８のいずれかに記載の音声圧縮伸張装置。
【請求項１０】前記各音声片は、処理対象音声片より
も時間的に長い区間を有し、処理対象音声片との類似度
判定の際は、各音声片の長さの範囲において処理対象音
声片との類似性が判定され、最も類似度の高い部分を有
する音声片が選択されることを特徴とする請求項６から
９のいずれかに記載の音声圧縮伸張装置。
【請求項１１】前記符号化データは、前記最も類似度
の高い部分を有する音声片番号、その音声片内のどの部
分であるかを表す位置データ、振幅調整用のパラメータ
で表されるデータであり、さらに、場合に応じて、スペ
クトル包絡パラメータをも加えたデータであることを特
徴とする請求項１０記載の音声圧縮伸張装置。
【請求項１２】音声圧縮伸張処理プログラムを記憶す
る記憶媒体において、その音声圧縮伸張処理プログラム
は、入力音声から所定区間の音声片を処理対象音声片として
切り出し、複数種類の音声片群含む音声片表を参照し、
その音声片表内のそれぞれの音声片と前記処理対象音声
片との類似性を比較し、最も類似度の高い音声片を選択
して、選択された音声片についてのデータを基に前記処
理対象音声片を符号化し、場合に応じて、スペクトル包
絡パラメータをも加えた符号化データを作成する処理を
行うとともに、符号化されたデータの伸張処理後あるい
は前記スペクトラム包絡パラメータの抽出後に、前記音
声片表に格納されるそれぞれの音声片の内容を更新する
ことを特徴とする音声圧縮伸張処理プログラムを記憶し
た記憶媒体。