JPH10105194A - ピッチ検出方法、音声信号符号化方法および装置 - Google Patents
ピッチ検出方法、音声信号符号化方法および装置Info
- Publication number
- JPH10105194A JPH10105194A JP8257128A JP25712896A JPH10105194A JP H10105194 A JPH10105194 A JP H10105194A JP 8257128 A JP8257128 A JP 8257128A JP 25712896 A JP25712896 A JP 25712896A JP H10105194 A JPH10105194 A JP H10105194A
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- encoding
- information
- reliability
- pitch information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
(57)【要約】
【課題】 検出されるべきピッチよりもハーフピッチや
倍ピッチの方が強い自己相関を有する音声信号に対して
も高精度のピッチ検出を行うことができるピッチ検出方
法と、そのピッチ検出方法を適用する音声信号符号化方
法および装置を提供する。 【解決手段】 入力音声信号に対して有声音/無声音判
定を行い、有声音部分に対してサイン波分析符号化手段
114により、無声音部分に対して符号励起線形予測符
号化手段120により符号化出力を得る。その際にサイ
ン波分析符号化手段114において、入力音声信号から
ピッチ情報を求めるピッチサーチと、検出されたピッチ
情報等に基づいて高信頼性ピッチ情報の設定を行い、設
定された高信頼性ピッチ情報に基づいてピッチ検出結果
を決定する。
倍ピッチの方が強い自己相関を有する音声信号に対して
も高精度のピッチ検出を行うことができるピッチ検出方
法と、そのピッチ検出方法を適用する音声信号符号化方
法および装置を提供する。 【解決手段】 入力音声信号に対して有声音/無声音判
定を行い、有声音部分に対してサイン波分析符号化手段
114により、無声音部分に対して符号励起線形予測符
号化手段120により符号化出力を得る。その際にサイ
ン波分析符号化手段114において、入力音声信号から
ピッチ情報を求めるピッチサーチと、検出されたピッチ
情報等に基づいて高信頼性ピッチ情報の設定を行い、設
定された高信頼性ピッチ情報に基づいてピッチ検出結果
を決定する。
Description
【0001】
【発明の属する技術分野】本発明は、入力音声信号を時
間軸上で所定のブロック単位で区分し、その区分された
ブロックを符号化単位として符号化処理を行う音声信号
符号化方法および装置と、これらに適用するピッチ検出
方法に関する。
間軸上で所定のブロック単位で区分し、その区分された
ブロックを符号化単位として符号化処理を行う音声信号
符号化方法および装置と、これらに適用するピッチ検出
方法に関する。
【0002】
【従来の技術】音声信号や音響信号を含むオーディオ信
号の時間領域や周波数領域における統計的性質と人間の
聴感上の特性を利用して信号圧縮を行う符号化方法が種
々知られている。このような符号化方法は、時間領域で
の符号化、周波数領域での符号化、分析合成符号化等に
大別される。
号の時間領域や周波数領域における統計的性質と人間の
聴感上の特性を利用して信号圧縮を行う符号化方法が種
々知られている。このような符号化方法は、時間領域で
の符号化、周波数領域での符号化、分析合成符号化等に
大別される。
【0003】音声信号等の高能率符号化の例として、ハ
ーモニック(Harmonic)符号化、MBE(Multiband Ex
citation: マルチバンド励起)符号化等のサイン波分析
符号化や、SBC(Sub-band Coding:帯域分割符号
化)、LPC(Linear Predictive Coding: 線形予測符
号化)、あるいはDCT(離散コサイン変換)、MDC
T(モデファイドDCT)、FFT(高速フーリエ変
換)等が知られている。
ーモニック(Harmonic)符号化、MBE(Multiband Ex
citation: マルチバンド励起)符号化等のサイン波分析
符号化や、SBC(Sub-band Coding:帯域分割符号
化)、LPC(Linear Predictive Coding: 線形予測符
号化)、あるいはDCT(離散コサイン変換)、MDC
T(モデファイドDCT)、FFT(高速フーリエ変
換)等が知られている。
【0004】
【発明が解決しようとする課題】ところで、入力音声信
号のピッチをパラメータとして用いて励起信号を生成す
るサイン波合成符号化等では、ピッチ検出が重要な役割
を担っており、従来の音声信号符号化回路等に用いられ
ている自己相関法に、例えば、サンプルのずらし量を1
サンプル以下とするフラクショナルサーチを加えること
によりピッチ検出精度の向上を図ったようなピッチ検出
方法では、音声信号中の本来検出されるべきピッチより
もハーフピッチや倍ピッチの方が強い自己相関を有する
場合には、これらを誤検出してしまうことがあった。
号のピッチをパラメータとして用いて励起信号を生成す
るサイン波合成符号化等では、ピッチ検出が重要な役割
を担っており、従来の音声信号符号化回路等に用いられ
ている自己相関法に、例えば、サンプルのずらし量を1
サンプル以下とするフラクショナルサーチを加えること
によりピッチ検出精度の向上を図ったようなピッチ検出
方法では、音声信号中の本来検出されるべきピッチより
もハーフピッチや倍ピッチの方が強い自己相関を有する
場合には、これらを誤検出してしまうことがあった。
【0005】本発明は、このような実情に鑑みてなされ
たものであり、検出されるべきピッチよりもハーフピッ
チや倍ピッチの方が強い自己相関を有する音声信号に対
しても高精度のピッチ検出を行うことができるピッチ検
出方法、および上記ピッチ検出方法を適用して、異音等
の発生がなく明瞭度の高い自然な再生音声を得ることが
できる音声信号符号化方法および装置を提供することを
目的とする。
たものであり、検出されるべきピッチよりもハーフピッ
チや倍ピッチの方が強い自己相関を有する音声信号に対
しても高精度のピッチ検出を行うことができるピッチ検
出方法、および上記ピッチ検出方法を適用して、異音等
の発生がなく明瞭度の高い自然な再生音声を得ることが
できる音声信号符号化方法および装置を提供することを
目的とする。
【0006】
【課題を解決するための手段】
上記の課題を解決するために提案する、本発明に係るピ
ッチ検出方法は、入力音声信号を時間軸上で所定の符号
化単位で区分し、その区分された各符号化単位の音声信
号に対してその基本周期に相当するピッチを検出するピ
ッチ検出方法であり、所定のピッチ検出条件のもとにピ
ッチ情報の検出を行うピッチサーチ工程と、検出された
ピッチ情報と、上記入力音声信号の音声レベルと、上記
入力音声信号の自己相関ピーク値とに基づいて、上記ピ
ッチ検出条件よりもよりピッチである可能性が高い場合
に真となる条件を満足する高信頼性ピッチ情報を設定す
る工程と、設定された高信頼性ピッチ情報に基づいてピ
ッチを決定する工程とを有してなることを特徴とするも
のである。
上記の課題を解決するために提案する、本発明に係るピ
ッチ検出方法は、入力音声信号を時間軸上で所定の符号
化単位で区分し、その区分された各符号化単位の音声信
号に対してその基本周期に相当するピッチを検出するピ
ッチ検出方法であり、所定のピッチ検出条件のもとにピ
ッチ情報の検出を行うピッチサーチ工程と、検出された
ピッチ情報と、上記入力音声信号の音声レベルと、上記
入力音声信号の自己相関ピーク値とに基づいて、上記ピ
ッチ検出条件よりもよりピッチである可能性が高い場合
に真となる条件を満足する高信頼性ピッチ情報を設定す
る工程と、設定された高信頼性ピッチ情報に基づいてピ
ッチを決定する工程とを有してなることを特徴とするも
のである。
【0007】上記の特徴を有する本発明に係るピッチ検
出方法によれば、ハーフピッチや倍ピッチを誤検出する
ことなく、高精度のピッチ検出を行うことができる。
出方法によれば、ハーフピッチや倍ピッチを誤検出する
ことなく、高精度のピッチ検出を行うことができる。
【0008】また、上記の課題を解決するために提案す
る、本発明に係る音声信号符号化方法および装置は、入
力音声信号を時間軸上で所定の符号化単位で区分し、そ
の区分された各符号化単位の音声信号に対して符号化を
行うものであり、上記ピッチ検出方法によりピッチを検
出し、入力音声信号の短期予測残差を求める予測符号化
と、求められた短期予測残差に対してサイン波分析符号
化を施すサイン波分析符号化と、上記入力音声信号に対
して波形符号化による符号化を施す波形符号化と、上記
入力音声信号に対して有声音/無声音判定を行う判定と
を行うことを特徴とするものである。
る、本発明に係る音声信号符号化方法および装置は、入
力音声信号を時間軸上で所定の符号化単位で区分し、そ
の区分された各符号化単位の音声信号に対して符号化を
行うものであり、上記ピッチ検出方法によりピッチを検
出し、入力音声信号の短期予測残差を求める予測符号化
と、求められた短期予測残差に対してサイン波分析符号
化を施すサイン波分析符号化と、上記入力音声信号に対
して波形符号化による符号化を施す波形符号化と、上記
入力音声信号に対して有声音/無声音判定を行う判定と
を行うことを特徴とするものである。
【0009】上記の特徴を備えた本発明に係る音声信号
符号化方法および装置によれば、音声信号中のハーフピ
ッチや倍ピッチを誤検出することなく高精度のピッチ検
出を行うことができるため、p、k、t等の破裂音や摩
擦音がきれいに再生でき、有声音(V)部と無声音(U
V)部との遷移部分でも異音等の発生がなく、鼻詰まり
感のない明瞭度の高い自然な再生音声を得ることができ
る。
符号化方法および装置によれば、音声信号中のハーフピ
ッチや倍ピッチを誤検出することなく高精度のピッチ検
出を行うことができるため、p、k、t等の破裂音や摩
擦音がきれいに再生でき、有声音(V)部と無声音(U
V)部との遷移部分でも異音等の発生がなく、鼻詰まり
感のない明瞭度の高い自然な再生音声を得ることができ
る。
【0010】
【発明の実施の形態】以下、本発明に係る好ましい実施
の形態について説明する。先ず、図1は、本発明に係る
ピッチ検出方法および音声信号符号化方法の実施の形態
が適用された音声信号符号化装置の基本構成を示してい
る。
の形態について説明する。先ず、図1は、本発明に係る
ピッチ検出方法および音声信号符号化方法の実施の形態
が適用された音声信号符号化装置の基本構成を示してい
る。
【0011】ここで、図1の音声信号符号化装置の基本
的な考え方は、入力音声信号の短期予測残差、例えばL
PC(線形予測符号化)残差を求めてサイン波分析(si
nusoidal analysis )符号化、例えばハーモニックコー
ディング(harmonic coding)を行う第1の符号化部1
10と、入力音声信号に対して位相再現性のある波形符
号化により符号化する第2の符号化部120とを有し、
入力信号の有声音(V:Voiced)の部分の符号化に第1
の符号化部110を用い、入力信号の無声音(UV:Un
voiced)の部分の符号化には第2の符号化部120を用
いるようにすることである。
的な考え方は、入力音声信号の短期予測残差、例えばL
PC(線形予測符号化)残差を求めてサイン波分析(si
nusoidal analysis )符号化、例えばハーモニックコー
ディング(harmonic coding)を行う第1の符号化部1
10と、入力音声信号に対して位相再現性のある波形符
号化により符号化する第2の符号化部120とを有し、
入力信号の有声音(V:Voiced)の部分の符号化に第1
の符号化部110を用い、入力信号の無声音(UV:Un
voiced)の部分の符号化には第2の符号化部120を用
いるようにすることである。
【0012】上記第1の符号化部110には、例えばL
PC残差をハーモニック符号化やマルチバンド励起(M
BE)符号化のようなサイン波分析符号化を行う構成が
用いられる。上記第2の符号化部120には、例えば合
成による分析法を用いて最適ベクトルのクローズドルー
プサーチによるベクトル量子化を用いた符号励起線形予
測(CELP)符号化の構成が用いられる。
PC残差をハーモニック符号化やマルチバンド励起(M
BE)符号化のようなサイン波分析符号化を行う構成が
用いられる。上記第2の符号化部120には、例えば合
成による分析法を用いて最適ベクトルのクローズドルー
プサーチによるベクトル量子化を用いた符号励起線形予
測(CELP)符号化の構成が用いられる。
【0013】図1の例では、入力端子101に供給され
た音声信号が、第1の符号化部110のLPC逆フィル
タ111およびLPC分析・量子化部113に送られて
いる。LPC分析・量子化部113から得られたLPC
係数あるいはいわゆるαパラメータは、LPC逆フィル
タ111に送られて、このLPC逆フィルタ111によ
り入力音声信号の線形予測残差(LPC残差)が取り出
される。また、LPC分析・量子化部113からは、後
述するようにLSP(線スペクトル対)の量子化出力が
取り出され、これが出力端子102に送られる。LPC
逆フィルタ111からのLPC残差は、サイン波分析符
号化部114に送られる。サイン波分析符号化部114
では、ピッチ検出やスペクトルエンベロープ振幅計算が
行われると共に、V(有声音)/UV(無声音)判定部
115によりV/UVの判定が行われる。サイン波分析
符号化部114からのスペクトルエンベロープ振幅デー
タがベクトル量子化部116に送られる。スペクトルエ
ンベロープのベクトル量子化出力としてのベクトル量子
化部116からのコードブックインデクスは、スイッチ
117を介して出力端子103に送られ、サイン波分析
符号化部114からの出力は、スイッチ118を介して
出力端子104に送られる。また、V/UV判定部11
5からのV/UV判定出力は、出力端子105に送られ
ると共に、スイッチ117、118の制御信号として送
られており、上述した有声音(V)のとき上記インデク
スおよびピッチが選択されて各出力端子103および1
04からそれぞれ取り出される。
た音声信号が、第1の符号化部110のLPC逆フィル
タ111およびLPC分析・量子化部113に送られて
いる。LPC分析・量子化部113から得られたLPC
係数あるいはいわゆるαパラメータは、LPC逆フィル
タ111に送られて、このLPC逆フィルタ111によ
り入力音声信号の線形予測残差(LPC残差)が取り出
される。また、LPC分析・量子化部113からは、後
述するようにLSP(線スペクトル対)の量子化出力が
取り出され、これが出力端子102に送られる。LPC
逆フィルタ111からのLPC残差は、サイン波分析符
号化部114に送られる。サイン波分析符号化部114
では、ピッチ検出やスペクトルエンベロープ振幅計算が
行われると共に、V(有声音)/UV(無声音)判定部
115によりV/UVの判定が行われる。サイン波分析
符号化部114からのスペクトルエンベロープ振幅デー
タがベクトル量子化部116に送られる。スペクトルエ
ンベロープのベクトル量子化出力としてのベクトル量子
化部116からのコードブックインデクスは、スイッチ
117を介して出力端子103に送られ、サイン波分析
符号化部114からの出力は、スイッチ118を介して
出力端子104に送られる。また、V/UV判定部11
5からのV/UV判定出力は、出力端子105に送られ
ると共に、スイッチ117、118の制御信号として送
られており、上述した有声音(V)のとき上記インデク
スおよびピッチが選択されて各出力端子103および1
04からそれぞれ取り出される。
【0014】図1の第2の符号化部120は、この例で
はCELP(符号励起線形予測)符号化構成を有してお
り、雑音符号帳121からの出力を、重み付きの合成フ
ィルタ122により合成処理し、得られた重み付き音声
を減算器123に送り、入力端子101に供給された音
声信号を聴覚重み付けフィルタ125を介して得られた
音声との誤差を取り出し、この誤差を距離計算回路12
4に送って距離計算を行い、誤差が最小となるようなベ
クトルを雑音符号帳121でサーチするような、合成に
よる分析(Analysis by Synthesis )法を用いたクロー
ズドループサーチを用いた時間軸波形のベクトル量子化
を行っている。このCELP符号化は、上述したように
無声音部分の符号化に用いられており、雑音符号帳12
1からのUVデータとしてのコードブックインデクス
は、上記V/UV判定部115からのV/UV判定結果
が無声音(UV)のときオンとなるスイッチ127を介
して、出力端子107より取り出される。
はCELP(符号励起線形予測)符号化構成を有してお
り、雑音符号帳121からの出力を、重み付きの合成フ
ィルタ122により合成処理し、得られた重み付き音声
を減算器123に送り、入力端子101に供給された音
声信号を聴覚重み付けフィルタ125を介して得られた
音声との誤差を取り出し、この誤差を距離計算回路12
4に送って距離計算を行い、誤差が最小となるようなベ
クトルを雑音符号帳121でサーチするような、合成に
よる分析(Analysis by Synthesis )法を用いたクロー
ズドループサーチを用いた時間軸波形のベクトル量子化
を行っている。このCELP符号化は、上述したように
無声音部分の符号化に用いられており、雑音符号帳12
1からのUVデータとしてのコードブックインデクス
は、上記V/UV判定部115からのV/UV判定結果
が無声音(UV)のときオンとなるスイッチ127を介
して、出力端子107より取り出される。
【0015】次に、図2は、本発明に係る音声信号復号
化方法の一実施の形態が適用された音声信号復号化装置
として、上記図1の音声信号符号化装置に対応する音声
信号復号化装置の基本構成を示すブロック図である。
化方法の一実施の形態が適用された音声信号復号化装置
として、上記図1の音声信号符号化装置に対応する音声
信号復号化装置の基本構成を示すブロック図である。
【0016】この図2において、入力端子202には上
記図1の出力端子102からの上記LSP(線スペクト
ル対)の量子化出力としてのコードブックインデクスが
入力される。入力端子203、204、および205に
は、上記図1の各出力端子103、104、および10
5からの各出力、すなわちエンベロープ量子化出力とし
てのインデクス、ピッチ、およびV/UV判定出力がそ
れぞれ入力される。また、入力端子207には、上記図
1の出力端子107からのUV(無声音)用のデータと
してのインデクスが入力される。
記図1の出力端子102からの上記LSP(線スペクト
ル対)の量子化出力としてのコードブックインデクスが
入力される。入力端子203、204、および205に
は、上記図1の各出力端子103、104、および10
5からの各出力、すなわちエンベロープ量子化出力とし
てのインデクス、ピッチ、およびV/UV判定出力がそ
れぞれ入力される。また、入力端子207には、上記図
1の出力端子107からのUV(無声音)用のデータと
してのインデクスが入力される。
【0017】入力端子203からのエンベロープ量子化
出力としてのインデクスは、逆ベクトル量子化器212
に送られて逆ベクトル量子化され、LPC残差のスペク
トルエンベロープが求められて有声音合成部211に送
られる。有声音合成部211は、サイン波合成により有
声音部分のLPC(線形予測符号化)残差を合成するも
のであり、この有声音合成部211には入力端子204
および205からのピッチおよびV/UV判定出力も供
給されている。有声音合成部211からの有声音のLP
C残差は、LPC合成フィルタ214に送られる。ま
た、入力端子207からのUVデータのインデクスは、
無声音合成部220に送られて、雑音符号帳を参照する
ことにより無声音部分のLPC残差が取り出される。こ
のLPC残差もLPC合成フィルタ214に送られる。
LPC合成フィルタ214では、上記有声音部分のLP
C残差と無声音部分のLPC残差とがそれぞれ独立に、
LPC合成処理が施される。あるいは、有声音部分のL
PC残差と無声音部分のLPC残差とが加算されたもの
に対してLPC合成処理を施すようにしてもよい。ここ
で入力端子202からのLSPのインデクスは、LPC
パラメータ再生部213に送られて、LPCのαパラメ
ータが取り出され、これがLPC合成フィルタ214に
送られる。LPC合成フィルタ214によりLPC合成
されて得られた音声信号は、出力端子201より取り出
される。
出力としてのインデクスは、逆ベクトル量子化器212
に送られて逆ベクトル量子化され、LPC残差のスペク
トルエンベロープが求められて有声音合成部211に送
られる。有声音合成部211は、サイン波合成により有
声音部分のLPC(線形予測符号化)残差を合成するも
のであり、この有声音合成部211には入力端子204
および205からのピッチおよびV/UV判定出力も供
給されている。有声音合成部211からの有声音のLP
C残差は、LPC合成フィルタ214に送られる。ま
た、入力端子207からのUVデータのインデクスは、
無声音合成部220に送られて、雑音符号帳を参照する
ことにより無声音部分のLPC残差が取り出される。こ
のLPC残差もLPC合成フィルタ214に送られる。
LPC合成フィルタ214では、上記有声音部分のLP
C残差と無声音部分のLPC残差とがそれぞれ独立に、
LPC合成処理が施される。あるいは、有声音部分のL
PC残差と無声音部分のLPC残差とが加算されたもの
に対してLPC合成処理を施すようにしてもよい。ここ
で入力端子202からのLSPのインデクスは、LPC
パラメータ再生部213に送られて、LPCのαパラメ
ータが取り出され、これがLPC合成フィルタ214に
送られる。LPC合成フィルタ214によりLPC合成
されて得られた音声信号は、出力端子201より取り出
される。
【0018】次に、上記図1に示した音声信号符号化装
置のより具体的な構成について、図3を参照しながら説
明する。なお、図3において、上記図1の各部と対応す
る部分には同じ指示符号を付している。
置のより具体的な構成について、図3を参照しながら説
明する。なお、図3において、上記図1の各部と対応す
る部分には同じ指示符号を付している。
【0019】この図3に示された音声信号符号化装置に
おいて、入力端子101に供給された音声信号は、ハイ
パスフィルタ(HPF)109にて不要な帯域の信号を
除去するフィルタ処理が施された後、LPC(線形予測
符号化)分析・量子化部113のLPC分析回路132
と、LPC逆フィルタ回路111とに送られる。
おいて、入力端子101に供給された音声信号は、ハイ
パスフィルタ(HPF)109にて不要な帯域の信号を
除去するフィルタ処理が施された後、LPC(線形予測
符号化)分析・量子化部113のLPC分析回路132
と、LPC逆フィルタ回路111とに送られる。
【0020】LPC分析・量子化部113のLPC分析
回路132は、入力信号波形の256サンプル程度の長
さを1ブロックとしてハミング窓をかけて、自己相関法
により線形予測係数、いわゆるαパラメータを求める。
データ出力の単位となるフレーミングの間隔は、160
サンプル程度とする。サンプリング周波数fsが例えば
8kHzのとき、1フレーム間隔は160サンプルで20
msec となる。
回路132は、入力信号波形の256サンプル程度の長
さを1ブロックとしてハミング窓をかけて、自己相関法
により線形予測係数、いわゆるαパラメータを求める。
データ出力の単位となるフレーミングの間隔は、160
サンプル程度とする。サンプリング周波数fsが例えば
8kHzのとき、1フレーム間隔は160サンプルで20
msec となる。
【0021】LPC分析回路132からのαパラメータ
は、α→LSP変換回路133に送られて、線スペクト
ル対(LSP)パラメータに変換される。これは、直接
型のフィルタ係数として求まったαパラメータを、例え
ば10個、すなわち5対のLSPパラメータに変換す
る。変換は例えばニュートン−ラプソン法等を用いて行
う。このLSPパラメータに変換するのは、αパラメー
タよりも補間特性に優れているからである。
は、α→LSP変換回路133に送られて、線スペクト
ル対(LSP)パラメータに変換される。これは、直接
型のフィルタ係数として求まったαパラメータを、例え
ば10個、すなわち5対のLSPパラメータに変換す
る。変換は例えばニュートン−ラプソン法等を用いて行
う。このLSPパラメータに変換するのは、αパラメー
タよりも補間特性に優れているからである。
【0022】α→LSP変換回路133からのLSPパ
ラメータは、LSP量子化器134によりマトリクスあ
るいはベクトル量子化される。このとき、フレーム間差
分をとってからベクトル量子化してもよく、複数フレー
ム分をまとめてマトリクス量子化してもよい。ここで
は、20msec を1フレームとし、20msec 毎に算出
されるLSPパラメータを2フレーム分まとめて、マト
リクス量子化およびベクトル量子化している。
ラメータは、LSP量子化器134によりマトリクスあ
るいはベクトル量子化される。このとき、フレーム間差
分をとってからベクトル量子化してもよく、複数フレー
ム分をまとめてマトリクス量子化してもよい。ここで
は、20msec を1フレームとし、20msec 毎に算出
されるLSPパラメータを2フレーム分まとめて、マト
リクス量子化およびベクトル量子化している。
【0023】このLSP量子化器134からの量子化出
力、すなわちLSP量子化のインデクスは、端子102
を介して取り出され、また量子化済みのLSPベクトル
は、LSP補間回路136に送られる。
力、すなわちLSP量子化のインデクスは、端子102
を介して取り出され、また量子化済みのLSPベクトル
は、LSP補間回路136に送られる。
【0024】LSP補間回路136は、上記20msec
あるいは40msec 毎に量子化されたLSPのベクトル
を補間し、8倍のレートにする。すなわち、2.5mse
c 毎にLSPベクトルが更新されるようにする。これ
は、残差波形をハーモニック符号化復号化方法により分
析合成すると、その合成波形のエンベロープは非常にな
だらかでスムーズな波形になるため、LPC係数が20
msec 毎に急激に変化すると異音を発生することがある
からである。すなわち、2.5msec 毎にLPC係数が
徐々に変化してゆくようにすれば、このような異音の発
生を防ぐことができる。
あるいは40msec 毎に量子化されたLSPのベクトル
を補間し、8倍のレートにする。すなわち、2.5mse
c 毎にLSPベクトルが更新されるようにする。これ
は、残差波形をハーモニック符号化復号化方法により分
析合成すると、その合成波形のエンベロープは非常にな
だらかでスムーズな波形になるため、LPC係数が20
msec 毎に急激に変化すると異音を発生することがある
からである。すなわち、2.5msec 毎にLPC係数が
徐々に変化してゆくようにすれば、このような異音の発
生を防ぐことができる。
【0025】このような補間が行われた2.5msec 毎
のLSPベクトルを用いて入力音声の逆フィルタリング
を実行するために、LSP→α変換回路137により、
LSPパラメータを例えば10次程度の直接型フィルタ
の係数であるαパラメータに変換する。このLSP→α
変換回路137からの出力は、上記LPC逆フィルタ回
路111に送られ、このLPC逆フィルタ111では、
2.5msec 毎に更新されるαパラメータにより逆フィ
ルタリング処理を行って、滑らかな出力を得るようにし
ている。このLPC逆フィルタ111からの出力は、サ
イン波分析符号化部114、具体的には例えばハーモニ
ック符号化回路、の直交変換回路145、例えばDFT
(離散フーリエ変換)回路に送られる。
のLSPベクトルを用いて入力音声の逆フィルタリング
を実行するために、LSP→α変換回路137により、
LSPパラメータを例えば10次程度の直接型フィルタ
の係数であるαパラメータに変換する。このLSP→α
変換回路137からの出力は、上記LPC逆フィルタ回
路111に送られ、このLPC逆フィルタ111では、
2.5msec 毎に更新されるαパラメータにより逆フィ
ルタリング処理を行って、滑らかな出力を得るようにし
ている。このLPC逆フィルタ111からの出力は、サ
イン波分析符号化部114、具体的には例えばハーモニ
ック符号化回路、の直交変換回路145、例えばDFT
(離散フーリエ変換)回路に送られる。
【0026】LPC分析・量子化部113のLPC分析
回路132からのαパラメータは、聴覚重み付けフィル
タ算出回路139に送られて聴覚重み付けのためのデー
タが求められ、この重み付けデータが後述する聴覚重み
付きのベクトル量子化器116と、第2の符号化部12
0の聴覚重み付けフィルタ125および聴覚重み付きの
合成フィルタ122とに送られる。
回路132からのαパラメータは、聴覚重み付けフィル
タ算出回路139に送られて聴覚重み付けのためのデー
タが求められ、この重み付けデータが後述する聴覚重み
付きのベクトル量子化器116と、第2の符号化部12
0の聴覚重み付けフィルタ125および聴覚重み付きの
合成フィルタ122とに送られる。
【0027】ハーモニック符号化回路等のサイン波分析
符号化部114では、LPC逆フィルタ111からの出
力を、ハーモニック符号化の方法で分析する。すなわ
ち、ピッチ検出、各ハーモニクスの振幅Am の算出、有
声音(V)/無声音(UV)の判別を行い、ピッチによ
って変化するハーモニクスのエンベロープあるいは振幅
Am の個数を次元変換して一定数にしている。
符号化部114では、LPC逆フィルタ111からの出
力を、ハーモニック符号化の方法で分析する。すなわ
ち、ピッチ検出、各ハーモニクスの振幅Am の算出、有
声音(V)/無声音(UV)の判別を行い、ピッチによ
って変化するハーモニクスのエンベロープあるいは振幅
Am の個数を次元変換して一定数にしている。
【0028】図3に示すサイン波分析符号化部114の
具体例においては、一般のハーモニック符号化を想定し
ているが、特に、MBE(Multiband Excitation: マル
チバンド励起)符号化の場合には、同時刻(同じブロッ
クあるいはフレーム内)の周波数軸領域いわゆるバンド
毎に有声音(Voiced)部分と無声音(Unvoiced)部分と
が存在するという仮定でモデル化することになる。それ
以外のハーモニック符号化では、1ブロックあるいはフ
レーム内の音声が有声音か無声音かの択一的な判定がな
されることになる。なお、以下の説明中のフレーム毎の
V/UVとは、MBE符号化に適用した場合には全バン
ドがUVのときを当該フレームのUVとしている。ここ
で上記MBEの分析合成手法については、本件出願人が
先に提案した特願平4−91422号明細書および図面
に詳細な具体例を開示している。
具体例においては、一般のハーモニック符号化を想定し
ているが、特に、MBE(Multiband Excitation: マル
チバンド励起)符号化の場合には、同時刻(同じブロッ
クあるいはフレーム内)の周波数軸領域いわゆるバンド
毎に有声音(Voiced)部分と無声音(Unvoiced)部分と
が存在するという仮定でモデル化することになる。それ
以外のハーモニック符号化では、1ブロックあるいはフ
レーム内の音声が有声音か無声音かの択一的な判定がな
されることになる。なお、以下の説明中のフレーム毎の
V/UVとは、MBE符号化に適用した場合には全バン
ドがUVのときを当該フレームのUVとしている。ここ
で上記MBEの分析合成手法については、本件出願人が
先に提案した特願平4−91422号明細書および図面
に詳細な具体例を開示している。
【0029】図3のサイン波分析符号化部114のオー
プンループピッチサーチ部141には、上記入力端子1
01からの入力音声信号が、またゼロクロスカウンタ1
42には、上記HPF(ハイパスフィルタ)109から
の信号がそれぞれ供給されている。サイン波分析符号化
部114の直交変換回路145には、LPC逆フィルタ
111からのLPC残差あるいは線形予測残差が供給さ
れている。
プンループピッチサーチ部141には、上記入力端子1
01からの入力音声信号が、またゼロクロスカウンタ1
42には、上記HPF(ハイパスフィルタ)109から
の信号がそれぞれ供給されている。サイン波分析符号化
部114の直交変換回路145には、LPC逆フィルタ
111からのLPC残差あるいは線形予測残差が供給さ
れている。
【0030】オープンループピッチサーチ部141で
は、入力信号のLPC残差をとってオープンループによ
る1.0ステップのピッチのサーチが行われ、抽出され
た粗ピッチ情報は高精度ピッチサーチ146に送られ
て、後述するようなクローズドループによる0.25ス
テップの高精度のピッチサーチ(ピッチのファインサー
チ)が行われる。
は、入力信号のLPC残差をとってオープンループによ
る1.0ステップのピッチのサーチが行われ、抽出され
た粗ピッチ情報は高精度ピッチサーチ146に送られ
て、後述するようなクローズドループによる0.25ス
テップの高精度のピッチサーチ(ピッチのファインサー
チ)が行われる。
【0031】また、オープンループピッチサーチ部14
1では、上記抽出された粗ピッチ情報に基づいて高信頼
性ピッチ情報の設定を行う。この高信頼性ピッチ情報
は、上記粗ピッチ情報よりも厳しい条件で、先ずその候
補値が設定され、粗ピッチ情報と比較することにより、
その値が更新または棄却される。なお、この高信頼性ピ
ッチ情報の設定,更新等については後述する。
1では、上記抽出された粗ピッチ情報に基づいて高信頼
性ピッチ情報の設定を行う。この高信頼性ピッチ情報
は、上記粗ピッチ情報よりも厳しい条件で、先ずその候
補値が設定され、粗ピッチ情報と比較することにより、
その値が更新または棄却される。なお、この高信頼性ピ
ッチ情報の設定,更新等については後述する。
【0032】さらに、オープンループピッチサーチ部1
41からは、上記粗ピッチ情報および高精度ピッチ情報
と共にLPC残差の自己相関ピーク値の最大値をパワー
で正規化した正規化自己相関最大値r'(1)が取り出さ
れ、V/UV(有声音/無声音)判定部115に送られ
ている。
41からは、上記粗ピッチ情報および高精度ピッチ情報
と共にLPC残差の自己相関ピーク値の最大値をパワー
で正規化した正規化自己相関最大値r'(1)が取り出さ
れ、V/UV(有声音/無声音)判定部115に送られ
ている。
【0033】なお、後述するV/UV(有声音/無声
音)判定部115からの判定出力も上記オープンループ
サーチのためのパラメータとして用いるようにしてもよ
い。このとき、音声信号のV(有声音)と判定された部
分から抽出されたピッチ情報のみを上記オープンループ
サーチに用いるようにする。
音)判定部115からの判定出力も上記オープンループ
サーチのためのパラメータとして用いるようにしてもよ
い。このとき、音声信号のV(有声音)と判定された部
分から抽出されたピッチ情報のみを上記オープンループ
サーチに用いるようにする。
【0034】直交変換回路145では例えばDFT(離
散フーリエ変換)等の直交変換処理が施されて、時間軸
上のLPC残差が周波数軸上のスペクトル振幅データに
変換される。この直交変換回路145からの出力は、高
精度ピッチサーチ部146およびスペクトル振幅あるい
はエンベロープを評価するためのスペクトル評価部14
8に送られる。
散フーリエ変換)等の直交変換処理が施されて、時間軸
上のLPC残差が周波数軸上のスペクトル振幅データに
変換される。この直交変換回路145からの出力は、高
精度ピッチサーチ部146およびスペクトル振幅あるい
はエンベロープを評価するためのスペクトル評価部14
8に送られる。
【0035】高精度(ファイン)ピッチサーチ部146
には、オープンループピッチサーチ部141で抽出され
た比較的ラフな粗ピッチ情報および高信頼性ピッチ情報
と、直交変換部145により例えばDFTされた周波数
軸上のデータとが供給されている。この高精度ピッチサ
ーチ部146では、上記粗ピッチ情報値を中心に、0.2
5サンプルきざみで±数サンプルずつ振って、最適な小
数点付き(フローティング)のファインピッチ情報の値
へ追い込む。このときのファインサーチの手法として、
いわゆる合成による分析 (Analysis by Synthesis)法を
用い、合成されたパワースペクトルが原音のパワースペ
クトルに最も近くなるようにピッチを選んでいる。この
ようなクローズドループによる高精度のピッチサーチ部
146からのピッチ情報は、スイッチ118を介して出
力端子104に送られる。
には、オープンループピッチサーチ部141で抽出され
た比較的ラフな粗ピッチ情報および高信頼性ピッチ情報
と、直交変換部145により例えばDFTされた周波数
軸上のデータとが供給されている。この高精度ピッチサ
ーチ部146では、上記粗ピッチ情報値を中心に、0.2
5サンプルきざみで±数サンプルずつ振って、最適な小
数点付き(フローティング)のファインピッチ情報の値
へ追い込む。このときのファインサーチの手法として、
いわゆる合成による分析 (Analysis by Synthesis)法を
用い、合成されたパワースペクトルが原音のパワースペ
クトルに最も近くなるようにピッチを選んでいる。この
ようなクローズドループによる高精度のピッチサーチ部
146からのピッチ情報は、スイッチ118を介して出
力端子104に送られる。
【0036】スペクトル評価部148では、LPC残差
の直交変換出力としてのスペクトル振幅およびピッチ情
報に基づいて各ハーモニクスの大きさおよびその集合で
あるスペクトルエンベロープが評価され、高精度ピッチ
サーチ部146、V/UV(有声音/無声音)判定部1
15および聴覚重み付きのベクトル量子化器116に送
られる。
の直交変換出力としてのスペクトル振幅およびピッチ情
報に基づいて各ハーモニクスの大きさおよびその集合で
あるスペクトルエンベロープが評価され、高精度ピッチ
サーチ部146、V/UV(有声音/無声音)判定部1
15および聴覚重み付きのベクトル量子化器116に送
られる。
【0037】V/UV(有声音/無声音)判定部115
は、直交変換回路145からの出力と、高精度ピッチサ
ーチ部146からの最適ピッチと、スペクトル評価部1
48からのスペクトル振幅データと、オープンループピ
ッチサーチ部141からの正規化自己相関最大値r'(1)
と、ゼロクロスカウンタ142からのゼロクロスカウン
ト値とに基づいて、当該フレームのV/UV判定が行わ
れる。さらに、MBEの場合の各バンド毎のV/UV判
定結果の境界位置も該フレームのV/UV判定の一条件
としてもよい。このV/UV判定部115からの判定出
力は、出力端子105を介して取り出される。
は、直交変換回路145からの出力と、高精度ピッチサ
ーチ部146からの最適ピッチと、スペクトル評価部1
48からのスペクトル振幅データと、オープンループピ
ッチサーチ部141からの正規化自己相関最大値r'(1)
と、ゼロクロスカウンタ142からのゼロクロスカウン
ト値とに基づいて、当該フレームのV/UV判定が行わ
れる。さらに、MBEの場合の各バンド毎のV/UV判
定結果の境界位置も該フレームのV/UV判定の一条件
としてもよい。このV/UV判定部115からの判定出
力は、出力端子105を介して取り出される。
【0038】ところで、スペクトル評価部148の出力
部あるいはベクトル量子化器116の入力部には、デー
タ数変換(一種のサンプリングレート変換)部が設けら
れている。このデータ数変換部は、上記ピッチに応じて
周波数軸上での分割帯域数が異なり、データ数が異なる
ことを考慮して、エンベロープの振幅データ|Am|を
一定の個数にするためのものである。すなわち、例えば
有効帯域を3400kHzまでとすると、この有効帯域が
上記ピッチに応じて、8バンド〜63バンドに分割され
ることになり、これらの各バンド毎に得られる上記振幅
データ|Am|の個数mMX+1も8〜63と変化するこ
とになる。このためデータ数変換部119では、この可
変個数mMX+1の振幅データを一定個数M個、例えば4
4個、のデータに変換している。
部あるいはベクトル量子化器116の入力部には、デー
タ数変換(一種のサンプリングレート変換)部が設けら
れている。このデータ数変換部は、上記ピッチに応じて
周波数軸上での分割帯域数が異なり、データ数が異なる
ことを考慮して、エンベロープの振幅データ|Am|を
一定の個数にするためのものである。すなわち、例えば
有効帯域を3400kHzまでとすると、この有効帯域が
上記ピッチに応じて、8バンド〜63バンドに分割され
ることになり、これらの各バンド毎に得られる上記振幅
データ|Am|の個数mMX+1も8〜63と変化するこ
とになる。このためデータ数変換部119では、この可
変個数mMX+1の振幅データを一定個数M個、例えば4
4個、のデータに変換している。
【0039】このスペクトル評価部148の出力部ある
いはベクトル量子化器116の入力部に設けられたデー
タ数変換部からの上記一定個数M個(例えば44個)の
振幅データあるいはエンベロープデータが、ベクトル量
子化器116により、所定個数、例えば44個のデータ
毎にまとめられてベクトルとされ、重み付きベクトル量
子化が施される。この重みは、聴覚重み付けフィルタ算
出回路139からの出力により与えられる。ベクトル量
子化器116からの上記エンベロープのインデクスは、
スイッチ117を介して出力端子103より取り出され
る。なお、上記重み付きベクトル量子化に先だって、所
定個数のデータから成るベクトルについて適当なリーク
係数を用いたフレーム間差分をとっておくようにしても
よい。
いはベクトル量子化器116の入力部に設けられたデー
タ数変換部からの上記一定個数M個(例えば44個)の
振幅データあるいはエンベロープデータが、ベクトル量
子化器116により、所定個数、例えば44個のデータ
毎にまとめられてベクトルとされ、重み付きベクトル量
子化が施される。この重みは、聴覚重み付けフィルタ算
出回路139からの出力により与えられる。ベクトル量
子化器116からの上記エンベロープのインデクスは、
スイッチ117を介して出力端子103より取り出され
る。なお、上記重み付きベクトル量子化に先だって、所
定個数のデータから成るベクトルについて適当なリーク
係数を用いたフレーム間差分をとっておくようにしても
よい。
【0040】次に、第2の符号化部120について説明
する。第2の符号化部120は、いわゆるCELP(符
号励起線形予測)符号化構成を有しており、特に、入力
音声信号の無声音部分の符号化のために用いられてい
る。この無声音部分用のCELP符号化構成において、
雑音符号帳、いわゆるストキャスティック・コードブッ
ク(stochastic code book)121からの代表値出力で
ある無声音のLPC残差に相当するノイズ出力を、ゲイ
ン回路126を介して、聴覚重み付きの合成フィルタ1
22に送っている。重み付きの合成フィルタ122で
は、入力されたノイズをLPC合成処理し、得られた重
み付き無声音の信号を減算器123に送っている。減算
器123には、上記入力端子101からHPF(ハイパ
スフィルタ)109を介して供給された音声信号を聴覚
重み付けフィルタ125で聴覚重み付けした信号が入力
されており、合成フィルタ122からの信号との差分あ
るいは誤差を取り出している。なお、聴覚重み付けフィ
ルタ125の出力から聴覚重み付き合成フィルタの零入
力応答を事前に差し引いておくものとする。この誤差を
距離計算回路124に送って距離計算を行い、誤差が最
小となるような代表値ベクトルを雑音符号帳121でサ
ーチする。このような合成による分析(Analysisby Syn
thesis )法を用いたクローズドループサーチにより時
間軸波形のベクトル量子化を行っている。
する。第2の符号化部120は、いわゆるCELP(符
号励起線形予測)符号化構成を有しており、特に、入力
音声信号の無声音部分の符号化のために用いられてい
る。この無声音部分用のCELP符号化構成において、
雑音符号帳、いわゆるストキャスティック・コードブッ
ク(stochastic code book)121からの代表値出力で
ある無声音のLPC残差に相当するノイズ出力を、ゲイ
ン回路126を介して、聴覚重み付きの合成フィルタ1
22に送っている。重み付きの合成フィルタ122で
は、入力されたノイズをLPC合成処理し、得られた重
み付き無声音の信号を減算器123に送っている。減算
器123には、上記入力端子101からHPF(ハイパ
スフィルタ)109を介して供給された音声信号を聴覚
重み付けフィルタ125で聴覚重み付けした信号が入力
されており、合成フィルタ122からの信号との差分あ
るいは誤差を取り出している。なお、聴覚重み付けフィ
ルタ125の出力から聴覚重み付き合成フィルタの零入
力応答を事前に差し引いておくものとする。この誤差を
距離計算回路124に送って距離計算を行い、誤差が最
小となるような代表値ベクトルを雑音符号帳121でサ
ーチする。このような合成による分析(Analysisby Syn
thesis )法を用いたクローズドループサーチにより時
間軸波形のベクトル量子化を行っている。
【0041】このCELP符号化構成を用いた第2の符
号化部120からのUV(無声音)部分用のデータとし
ては、雑音符号帳121からのコードブックのシェイプ
インデクスと、ゲイン回路126からのコードブックの
ゲインインデクスとが取り出される。雑音符号帳121
からのUVデータであるシェイプインデクスは、スイッ
チ127sを介して出力端子107sに送られ、ゲイン
回路126のUVデータであるゲインインデクスは、ス
イッチ127gを介して出力端子107gに送られてい
る。
号化部120からのUV(無声音)部分用のデータとし
ては、雑音符号帳121からのコードブックのシェイプ
インデクスと、ゲイン回路126からのコードブックの
ゲインインデクスとが取り出される。雑音符号帳121
からのUVデータであるシェイプインデクスは、スイッ
チ127sを介して出力端子107sに送られ、ゲイン
回路126のUVデータであるゲインインデクスは、ス
イッチ127gを介して出力端子107gに送られてい
る。
【0042】ここで、これらのスイッチ127s、12
7gおよび上記スイッチ117、118は、上記V/U
V判定部115からのV/UV判定結果によりオン/オ
フ制御され、スイッチ117、118は、現在伝送しよ
うとするフレームの音声信号のV/UV判定結果が有声
音(V)のときオンとなり、スイッチ127s、127
gは、現在伝送しようとするフレームの音声信号が無声
音(UV)のときオンとなる。
7gおよび上記スイッチ117、118は、上記V/U
V判定部115からのV/UV判定結果によりオン/オ
フ制御され、スイッチ117、118は、現在伝送しよ
うとするフレームの音声信号のV/UV判定結果が有声
音(V)のときオンとなり、スイッチ127s、127
gは、現在伝送しようとするフレームの音声信号が無声
音(UV)のときオンとなる。
【0043】次に、前述した高信頼性ピッチ情報につい
て説明する。
て説明する。
【0044】高信頼性ピッチ情報は、倍ピッチやハーフ
ピッチの誤検出を防ぐために、従来のピッチ情報に加え
て用いる評価パラメータであり、図3に示した音声信号
符号化装置では、サイン波分析符号化部114のオープ
ンループピッチサーチ部141において、入力端子10
1から入力される入力音声信号ピッチ情報,音声レベル
(フレームレベル),自己相関ピーク値とに基づいて、
まず、高信頼性ピッチ情報の候補値として設定される。
そして、この設定された高信頼性ピッチ情報の候補値
は、次フレームのオープンループサーチの結果と比較さ
れ、2つのピッチが十分に近いときに高信頼性ピッチ情
報として登録される。そうでない場合、候補値は棄却さ
れる。また、登録された高信頼性ピッチ情報について
も、所定の時間更新されない場合に棄却される。
ピッチの誤検出を防ぐために、従来のピッチ情報に加え
て用いる評価パラメータであり、図3に示した音声信号
符号化装置では、サイン波分析符号化部114のオープ
ンループピッチサーチ部141において、入力端子10
1から入力される入力音声信号ピッチ情報,音声レベル
(フレームレベル),自己相関ピーク値とに基づいて、
まず、高信頼性ピッチ情報の候補値として設定される。
そして、この設定された高信頼性ピッチ情報の候補値
は、次フレームのオープンループサーチの結果と比較さ
れ、2つのピッチが十分に近いときに高信頼性ピッチ情
報として登録される。そうでない場合、候補値は棄却さ
れる。また、登録された高信頼性ピッチ情報について
も、所定の時間更新されない場合に棄却される。
【0045】次に、上記の高信頼性ピッチ情報が、設定
およびリセットされる具体的な手順のアルゴリズムを示
す。なお以下では、1フレームを符号化単位として説明
する。
およびリセットされる具体的な手順のアルゴリズムを示
す。なお以下では、1フレームを符号化単位として説明
する。
【0046】以下に用いる各変数の定義は rblPch :高信頼性ピッチ情報 rblPchCd :高信頼性ピッチ情報候補値 rblPchHoldState :高信頼性ピッチ情報保持時間 lev :音声レベル(フレームレベル)(rms) である。
【0047】Ambiguous(p0,p1,range)は、以下の4条件 abs(p0−2.0×p1)/p0 < range abs(p0−3.0×p1)/p0 < range abs(p0−p1/2.0) /p0 < range abs(p0−p1/3.0) /p0 < range のいずれかの条件を満たしたとき、すなわち、2つのピ
ッチp0とピッチp1とが互いに2倍,3倍、あるいは互い
に1/2,1/3の関係にあると判断される場合に真と
なる関数である。rangeは所定の定数である。また、 pitch[0] :1フレーム過去のピッチ pitch[1] :現在フレームのピッチ pitch[2] :1フレーム未来(先行)のピッチ r'(n) :自己相関ピーク値 lag(n) :ピッチラグ(ピッチ周期をサンプル数で表し
たもの) とする。ここで、r'(n)は、算出した自己相関値Rk を
自己相関の0番目のピークR0 (パワー)で規格化して
大きい順に並べたものであり、nはその順番を表す。
ッチp0とピッチp1とが互いに2倍,3倍、あるいは互い
に1/2,1/3の関係にあると判断される場合に真と
なる関数である。rangeは所定の定数である。また、 pitch[0] :1フレーム過去のピッチ pitch[1] :現在フレームのピッチ pitch[2] :1フレーム未来(先行)のピッチ r'(n) :自己相関ピーク値 lag(n) :ピッチラグ(ピッチ周期をサンプル数で表し
たもの) とする。ここで、r'(n)は、算出した自己相関値Rk を
自己相関の0番目のピークR0 (パワー)で規格化して
大きい順に並べたものであり、nはその順番を表す。
【0048】上記自己相関ピーク値r'(n)およびピッチ
ラグlag(n)は、現フレームについても保存されているも
のとし、それらを各々crntR'(n)およびcrntLag(n)とす
る。さらに、 rp[0] :1フレーム過去の自己相関ピーク最大値r'
(1) rp[1] :現在フレームの自己相関ピーク最大値r'(1) rp[2] :1フレーム未来(先行)の自己相関ピーク最
大値r'(1) とする。そして、現フレームの、ピッチ,自己相関ピー
ク値,フレームレベル等がある条件を満たすことにより
高信頼性ピッチ情報候補値が設定され、さらに、この候
補値と次フレームのピッチの差が、ある値より小さいと
きにのみ高信頼性ピッチ情報が登録されるものとする。
ラグlag(n)は、現フレームについても保存されているも
のとし、それらを各々crntR'(n)およびcrntLag(n)とす
る。さらに、 rp[0] :1フレーム過去の自己相関ピーク最大値r'
(1) rp[1] :現在フレームの自己相関ピーク最大値r'(1) rp[2] :1フレーム未来(先行)の自己相関ピーク最
大値r'(1) とする。そして、現フレームの、ピッチ,自己相関ピー
ク値,フレームレベル等がある条件を満たすことにより
高信頼性ピッチ情報候補値が設定され、さらに、この候
補値と次フレームのピッチの差が、ある値より小さいと
きにのみ高信頼性ピッチ情報が登録されるものとする。
【0049】以下に、検出された粗ピッチ情報に基づい
て高信頼性ピッチ情報を設定するアルゴリズムの一例を
示す。
て高信頼性ピッチ情報を設定するアルゴリズムの一例を
示す。
【0050】 [条件1] if rblPch×0.6<pitch[1]<rblPch×1.8 and rp[1]>0.39 and lev>2000.0 or rp[1]>0.65 or rp[1]>0.30 and abs(pitch[1]-rblPchCd)<8.0 and lev>400.0 then [条件2] if rblPchCd≠0.0 and abs(pitch[1]-rblPchCd)<8 and !Ambiguous(rblPch,pitch[1],0.11) then [処理1] rblPch=pitch[1] endif [処理2] rblPchCd=pitch[1] else [処理3] rblPchCd=0.0 endif まず、上記のアルゴリズムにより高信頼性ピッチ情報が
設定される手順を図4に示すフローチャートを用いて説
明する。
設定される手順を図4に示すフローチャートを用いて説
明する。
【0051】ステップS1において[条件1]が満足さ
れるときは、ステップS2に進み[条件2]を満足する
かどうかが判定される。一方、ステップS1において
[条件1]が満足されないときには、ステップS5に示
す[処理3]が実行されて、その実行結果が高信頼性ピ
ッチ情報とされる。
れるときは、ステップS2に進み[条件2]を満足する
かどうかが判定される。一方、ステップS1において
[条件1]が満足されないときには、ステップS5に示
す[処理3]が実行されて、その実行結果が高信頼性ピ
ッチ情報とされる。
【0052】ステップS2において[条件2]が満足さ
れるときは、ステップS3の[処理1]が実行され、引
き続いてステップS4の[処理2]が実行される。一
方、ステップS2において[条件2]が満足されないと
きには、ステップS3の[処理1]が実行されずにステ
ップS4の[処理2]が実行される。
れるときは、ステップS3の[処理1]が実行され、引
き続いてステップS4の[処理2]が実行される。一
方、ステップS2において[条件2]が満足されないと
きには、ステップS3の[処理1]が実行されずにステ
ップS4の[処理2]が実行される。
【0053】そして、上記ステップS4の[処理2]の
実行結果が高信頼性ピッチ情報として出力される。
実行結果が高信頼性ピッチ情報として出力される。
【0054】そして、高信頼性ピッチ情報が登録された
後、所定の時間、例えば5フレームに亘って高信頼性ピ
ッチ情報が新たに登録されない場合、その高信頼性ピッ
チ情報はリセットされる。
後、所定の時間、例えば5フレームに亘って高信頼性ピ
ッチ情報が新たに登録されない場合、その高信頼性ピッ
チ情報はリセットされる。
【0055】以下に、設定された高信頼性ピッチ情報が
リセットされるアルゴリズムの一例を示す。
リセットされるアルゴリズムの一例を示す。
【0056】 上記のアルゴリズムにより高信頼性ピッチ情報がリセッ
トされる手順を図5に示すフローチャートを用いて説明
する。
トされる手順を図5に示すフローチャートを用いて説明
する。
【0057】ステップS6において[条件3]が満足さ
れるときは、ステップS7に示す[処理4]が実行され
て高信頼性ピッチ情報がリセットされる。一方、ステッ
プS6において[条件3]が満足されないときにはステ
ップS7の[処理4]が実行されずに、ステップS8に
示す[処理5]が実行されて高信頼性ピッチ情報がリセ
ットされる。
れるときは、ステップS7に示す[処理4]が実行され
て高信頼性ピッチ情報がリセットされる。一方、ステッ
プS6において[条件3]が満足されないときにはステ
ップS7の[処理4]が実行されずに、ステップS8に
示す[処理5]が実行されて高信頼性ピッチ情報がリセ
ットされる。
【0058】このようにして、高信頼性ピッチ情報が設
定およびリセットされる。
定およびリセットされる。
【0059】ところで、上記音声信号符号化装置では、
要求される音声品質にて合わせ異なるビットレートの出
力データを出力することができ、出力データのビットレ
ートが可変されて出力される。
要求される音声品質にて合わせ異なるビットレートの出
力データを出力することができ、出力データのビットレ
ートが可変されて出力される。
【0060】具体的には、出力データのビットレート
を、低ビットレートと高ビットレートとに切り換えるこ
とができる。例えば、低ビットレートを2kbpsとし、
高ビットレートを6kbpsとする場合には、以下の表1
に示す各ビットレートのデータが出力される。
を、低ビットレートと高ビットレートとに切り換えるこ
とができる。例えば、低ビットレートを2kbpsとし、
高ビットレートを6kbpsとする場合には、以下の表1
に示す各ビットレートのデータが出力される。
【0061】
【表1】
【0062】出力端子104からのピッチ情報について
は、有声音時に、常に8bits/20msecで出力され、
出力端子105から出力されるV/UV判定出力は、常
に1bit/20msecである。出力端子102から出力さ
れるLSP量子化のインデクスは、32bits/40mse
cと48bits/40msecとの間で切り換えが行われる。
また、出力端子103から出力される有声音時(V)の
インデクスは、15bits/20msecと87bits/20
msecとの間で切り換えが行われ、出力端子107s、
107gから出力される無声音時(UV)のインデクス
は、11bits/10msecと23bits/5msecとの間で
切り換えが行われる。これにより、有声音時(V)の出
力データは、2kbpsでは40bits/20msecとなり、
6kbps では120bits/20msecとなる。また、無
声音時(UV)の出力データは、2kbpsでは39bits
/20msecとなり、6kbps では117bits/20ms
ecとなる。なお、上記LSP量子化のインデクス、有声
音時(V)のインデクス、および無声音時(UV)のイ
ンデクスについては、後述する各部の構成と共に説明す
る。
は、有声音時に、常に8bits/20msecで出力され、
出力端子105から出力されるV/UV判定出力は、常
に1bit/20msecである。出力端子102から出力さ
れるLSP量子化のインデクスは、32bits/40mse
cと48bits/40msecとの間で切り換えが行われる。
また、出力端子103から出力される有声音時(V)の
インデクスは、15bits/20msecと87bits/20
msecとの間で切り換えが行われ、出力端子107s、
107gから出力される無声音時(UV)のインデクス
は、11bits/10msecと23bits/5msecとの間で
切り換えが行われる。これにより、有声音時(V)の出
力データは、2kbpsでは40bits/20msecとなり、
6kbps では120bits/20msecとなる。また、無
声音時(UV)の出力データは、2kbpsでは39bits
/20msecとなり、6kbps では117bits/20ms
ecとなる。なお、上記LSP量子化のインデクス、有声
音時(V)のインデクス、および無声音時(UV)のイ
ンデクスについては、後述する各部の構成と共に説明す
る。
【0063】次に、図3の音声信号符号化装置におい
て、V/UV(有声音/無声音)判定部115の具体例
について説明する。
て、V/UV(有声音/無声音)判定部115の具体例
について説明する。
【0064】このV/UV判定部115は、入力音声信
号のフレーム平均エネルギlev 、正規化自己相関ピーク
値rp 、スペクトル類似度pos 、零交叉(ゼロクロス)
数nZero 、ピッチラグpch に基づいて、当該フレームの
V/UV判定を行う。
号のフレーム平均エネルギlev 、正規化自己相関ピーク
値rp 、スペクトル類似度pos 、零交叉(ゼロクロス)
数nZero 、ピッチラグpch に基づいて、当該フレームの
V/UV判定を行う。
【0065】すなわち、V/UV判定部115には、直
交変換回路145からの出力に基づいて入力音声信号の
フレーム平均エネルギ、すなわちフレーム平均rmsも
しくはそれに準ずる量lev が供給され、オープンループ
ピッチサーチ部141からの正規化自己相関ピーク値rp
が供給され、ゼロクロスカウンタ142からのゼロク
ロスカウント値(零交叉数)nZero が供給され、高精度
ピッチサーチ部146からの最適ピッチとして、ピッチ
周期をサンプル数で表したピッチラグpch が供給され
る。また、MBEの場合と同様な各バンド毎のV/UV
判別結果の境界位置も当該フレームのV/UV判定の一
条件としており、これがスペクトル類似度pos としてV
/UV判定部115に供給される。
交変換回路145からの出力に基づいて入力音声信号の
フレーム平均エネルギ、すなわちフレーム平均rmsも
しくはそれに準ずる量lev が供給され、オープンループ
ピッチサーチ部141からの正規化自己相関ピーク値rp
が供給され、ゼロクロスカウンタ142からのゼロク
ロスカウント値(零交叉数)nZero が供給され、高精度
ピッチサーチ部146からの最適ピッチとして、ピッチ
周期をサンプル数で表したピッチラグpch が供給され
る。また、MBEの場合と同様な各バンド毎のV/UV
判別結果の境界位置も当該フレームのV/UV判定の一
条件としており、これがスペクトル類似度pos としてV
/UV判定部115に供給される。
【0066】このMBEの場合の各バンド毎のV/UV
判定結果を用いたV/UV判定条件について以下に説明
する。
判定結果を用いたV/UV判定条件について以下に説明
する。
【0067】MBEの場合の第m番目のハーモニックス
の大きさを表すパラメータあるいは振幅|Am| は、
の大きさを表すパラメータあるいは振幅|Am| は、
【0068】
【数1】
【0069】により表せる。この式において、|S(j)
| は、LPC残差をDFTしたスペクトルであり、|
E(j)| は、基底信号のスペクトル、具体的には256
ポイントのハミング窓をDFTしたものである。また、
各バンド毎のV/UV判定のために、NSR(ノイズto
シグナル比)を利用する。この第mバンドのNSRは、
| は、LPC残差をDFTしたスペクトルであり、|
E(j)| は、基底信号のスペクトル、具体的には256
ポイントのハミング窓をDFTしたものである。また、
各バンド毎のV/UV判定のために、NSR(ノイズto
シグナル比)を利用する。この第mバンドのNSRは、
【0070】
【数2】
【0071】と表せ、このNSR値が所定の閾値(例え
ば0.3 )より大のとき(エラーが大きい)ときには、そ
のバンドでの|Am ||E(j) |による|S(j) |の近
似が良くない(上記励起信号|E(j) |が基底として不
適当である)と判断でき、当該バンドをUV(Unvoice
d、無声音)と判別する。これ以外のときは、近似があ
る程度良好に行われていると判断でき、そのバンドをV
(Voiced:有声音)と判別する。
ば0.3 )より大のとき(エラーが大きい)ときには、そ
のバンドでの|Am ||E(j) |による|S(j) |の近
似が良くない(上記励起信号|E(j) |が基底として不
適当である)と判断でき、当該バンドをUV(Unvoice
d、無声音)と判別する。これ以外のときは、近似があ
る程度良好に行われていると判断でき、そのバンドをV
(Voiced:有声音)と判別する。
【0072】ところで、上述したように基本ピッチ周波
数で分割されたバンドの数(ハーモニックスの数)は、
声の高低(ピッチの大小)によって約8〜63程度の範
囲で変動するため、各バンド毎のV/UVフラグの個数
も同様に変動してしまう。そこで、固定的な周波数帯域
で分割した一定個数のバンド毎にV/UV判別結果をま
とめる(あるいは縮退させる)ようにしている。具体的
には、音声帯域を含む所定帯域を例えば12個のバンド
に分割し、当該バンドのV/UVを判断している。この
場合のバンド毎のV/UV判別データについては、全バ
ンド中で1箇所以下の有声音(V)領域と無声音(U
V)領域との区分位置あるいは境界位置を表すデータ
を、上記スペクトル類似度pos として用いている。この
場合、スペクトル類似度pos の取り得る値は、1≦pos
≦12 となる。
数で分割されたバンドの数(ハーモニックスの数)は、
声の高低(ピッチの大小)によって約8〜63程度の範
囲で変動するため、各バンド毎のV/UVフラグの個数
も同様に変動してしまう。そこで、固定的な周波数帯域
で分割した一定個数のバンド毎にV/UV判別結果をま
とめる(あるいは縮退させる)ようにしている。具体的
には、音声帯域を含む所定帯域を例えば12個のバンド
に分割し、当該バンドのV/UVを判断している。この
場合のバンド毎のV/UV判別データについては、全バ
ンド中で1箇所以下の有声音(V)領域と無声音(U
V)領域との区分位置あるいは境界位置を表すデータ
を、上記スペクトル類似度pos として用いている。この
場合、スペクトル類似度pos の取り得る値は、1≦pos
≦12 となる。
【0073】V/UV判定部115に供給された上記各
入力パラメータは、それぞれ関数計算されて、V(有声
音)らしさを表す関数値の計算が行われる。このときの
関数の具体例について説明する。
入力パラメータは、それぞれ関数計算されて、V(有声
音)らしさを表す関数値の計算が行われる。このときの
関数の具体例について説明する。
【0074】先ず、上記入力音声信号のフレーム平均エ
ネルギlev の値lev に基づいて、関数pLev(lev) の値が
計算される。この関数pLev(lev) としては、例えば、 pLev(lev) = 1.0/(1.0+exp(-(lev-400.0)/100.0)) が用いられる。
ネルギlev の値lev に基づいて、関数pLev(lev) の値が
計算される。この関数pLev(lev) としては、例えば、 pLev(lev) = 1.0/(1.0+exp(-(lev-400.0)/100.0)) が用いられる。
【0075】次に、上記正規化自己相関ピーク値rp の
値(0≦rp≦1.0)に基づいて、関数pR0r(rp) の値が計
算される。この関数pR0r(rp) としては、例えば、 pR0r(rp) = 1.0/(1.0+exp(-(rp-0.3)/0.06)) が用いられる。
値(0≦rp≦1.0)に基づいて、関数pR0r(rp) の値が計
算される。この関数pR0r(rp) としては、例えば、 pR0r(rp) = 1.0/(1.0+exp(-(rp-0.3)/0.06)) が用いられる。
【0076】また、上記スペクトル類似度pos の値(1
≦pos≦12) に基づいて、関数pPos(pos) の値が計算
される。この関数pPos(pos) としては、例えば、 pPos(pos) = 1.0/(1.0+exp(-(pos-1.5)/0.8)) が用いられる。
≦pos≦12) に基づいて、関数pPos(pos) の値が計算
される。この関数pPos(pos) としては、例えば、 pPos(pos) = 1.0/(1.0+exp(-(pos-1.5)/0.8)) が用いられる。
【0077】次に、上記零交叉数nZero の値(1≦nZer
o≦160) に基づいて、関数pNZero(nZero) の値が計
算される。この関数pNZero(nZero) としては、例えば、 pNZero(nZero) = 1.0/(1.0+exp((nZero-70.0)/12.
0)) が用いられる。
o≦160) に基づいて、関数pNZero(nZero) の値が計
算される。この関数pNZero(nZero) としては、例えば、 pNZero(nZero) = 1.0/(1.0+exp((nZero-70.0)/12.
0)) が用いられる。
【0078】さらに、上記ピッチラグpch の値(20≦pc
h≦147)に基づいて、関数pPch(pch) の値が計算され
る。この関数pPch(pch) としては、例えば、 pPch(pch) = 1.0/(1.0+exp(-(pch-12.0)/2.5))×
1.0/(1.0+exp((pch-105.0)/6.0)) が用いられる。
h≦147)に基づいて、関数pPch(pch) の値が計算され
る。この関数pPch(pch) としては、例えば、 pPch(pch) = 1.0/(1.0+exp(-(pch-12.0)/2.5))×
1.0/(1.0+exp((pch-105.0)/6.0)) が用いられる。
【0079】これらの関数pLev(lev) ,pR0r(rp) ,pPo
s(pos) ,pNZero(nZero) ,pPch(pch) により算出され
た各パラメータlev ,rp ,pos ,nZero ,pch につい
てのV(有声音)らしさを用いて、最終的なVらしさを
算出するわけであるが、このとき、次の2点を考慮する
ことが好ましい。
s(pos) ,pNZero(nZero) ,pPch(pch) により算出され
た各パラメータlev ,rp ,pos ,nZero ,pch につい
てのV(有声音)らしさを用いて、最終的なVらしさを
算出するわけであるが、このとき、次の2点を考慮する
ことが好ましい。
【0080】すなわち、第1点として、例えば、自己相
関ピーク値が比較的小さくても、フレーム平均エネルギ
が非常に大きいような場合は、V(有声音)とすべきで
ある。このように、相補的な関係が強いパラメータ同士
では、重み付け和をとることにする。第2点として、独
立してVらしさを表しているパラメータについては、乗
算を行う。
関ピーク値が比較的小さくても、フレーム平均エネルギ
が非常に大きいような場合は、V(有声音)とすべきで
ある。このように、相補的な関係が強いパラメータ同士
では、重み付け和をとることにする。第2点として、独
立してVらしさを表しているパラメータについては、乗
算を行う。
【0081】よって、相補的な関係にある自己相関ピー
ク値とフレーム平均エネルギについては重み付け和をと
り、その他については乗算を行うことにし、最終的なV
らしさを表す関数f(lev,rp,pos,nZero,pch) を、 f(lev,rp,pos,nZero,pch)=((1.2pR0r(rp)+0.8pL
ev(lev))/2.0)×pPos(pos)×pNZero(nZero)×pPch(p
ch) により計算する。ここで、重み付けパラメータ(α=1.
2 ,β=0.8) は経験的に得られたものである。
ク値とフレーム平均エネルギについては重み付け和をと
り、その他については乗算を行うことにし、最終的なV
らしさを表す関数f(lev,rp,pos,nZero,pch) を、 f(lev,rp,pos,nZero,pch)=((1.2pR0r(rp)+0.8pL
ev(lev))/2.0)×pPos(pos)×pNZero(nZero)×pPch(p
ch) により計算する。ここで、重み付けパラメータ(α=1.
2 ,β=0.8) は経験的に得られたものである。
【0082】V/UV(有声音/無声音)判定は、上記
のようにして得られた関数fの値を、所定の閾値で弁別
することにより行われる。具体的には、例えば、最終的
にfが0.5以上であればV(有声音)とし、fが0.
5より小さければUV(無声音)とする。
のようにして得られた関数fの値を、所定の閾値で弁別
することにより行われる。具体的には、例えば、最終的
にfが0.5以上であればV(有声音)とし、fが0.
5より小さければUV(無声音)とする。
【0083】なお、例えば上記正規化自己相関ピーク値
rp についての有声音らしさを求める上記関数pR0r(rp)
の代わりに、これを適当な直線により近似した関数pR0
r'(rp)として、 pR0r'(rp) = 0.6x 0≦x< 7/34 pR0r'(rp) = 4.0(x - 0.175) 7/34 ≦x< 67/170 pR0r'(rp) = 0.6x + 0.64 67/170 ≦x< 0.6 pR0r'(rp) = 1 0.6 ≦x≦ 1.0 を用いることも可能である。
rp についての有声音らしさを求める上記関数pR0r(rp)
の代わりに、これを適当な直線により近似した関数pR0
r'(rp)として、 pR0r'(rp) = 0.6x 0≦x< 7/34 pR0r'(rp) = 4.0(x - 0.175) 7/34 ≦x< 67/170 pR0r'(rp) = 0.6x + 0.64 67/170 ≦x< 0.6 pR0r'(rp) = 1 0.6 ≦x≦ 1.0 を用いることも可能である。
【0084】以上説明したV/UV判定の基本的な考え
方をまとめると、上述した入力パラメータlev ,rp ,p
os ,nZero ,pch 等のようなV/UV判定のためのパ
ラメータxを、 g(x) = A/(1+ exp(−(x−b)/a)) ただし、A,a,bは定数 で表されるシグモイド関数g(x)により変換し、このシ
グモイド関数g(x)により変換されたパラメータを用い
て有声音/無声音判定を行うことである。
方をまとめると、上述した入力パラメータlev ,rp ,p
os ,nZero ,pch 等のようなV/UV判定のためのパ
ラメータxを、 g(x) = A/(1+ exp(−(x−b)/a)) ただし、A,a,bは定数 で表されるシグモイド関数g(x)により変換し、このシ
グモイド関数g(x)により変換されたパラメータを用い
て有声音/無声音判定を行うことである。
【0085】これらの入力パラメータlev ,rp ,pos
,nZero ,pch を一般化して、n個(nは自然数)の
入力パラメータをそれぞれx1,x2,...,xn と表すと
き、これらの入力パラメータxk (ただし、k=1,
2,...,n) によるV(有声音)らしさをそれぞれ関
数gk(xk)で表し、最終的なV(有声音)らしさを、 f(x1,x2,...,xn) = F(g1(x1),g2(x2),...,g
n(xn)) として評価する。
,nZero ,pch を一般化して、n個(nは自然数)の
入力パラメータをそれぞれx1,x2,...,xn と表すと
き、これらの入力パラメータxk (ただし、k=1,
2,...,n) によるV(有声音)らしさをそれぞれ関
数gk(xk)で表し、最終的なV(有声音)らしさを、 f(x1,x2,...,xn) = F(g1(x1),g2(x2),...,g
n(xn)) として評価する。
【0086】上記関数gk(xk)(ただし、k=1,
2,...,n) としては、その値域が、ckからdkまで
の値(ただし、ck,dk は、ck<dkの定数)を取る任
意の関数を用いることが挙げられる。
2,...,n) としては、その値域が、ckからdkまで
の値(ただし、ck,dk は、ck<dkの定数)を取る任
意の関数を用いることが挙げられる。
【0087】また、上記関数gk(xk)としては、その値
域がckからdkまでの値を取り、傾きの異なる複数の直
線からなる関数を用いることが挙げられる。
域がckからdkまでの値を取り、傾きの異なる複数の直
線からなる関数を用いることが挙げられる。
【0088】また、上記関数gk(xk)としては、その値
域がckからdkまでの値を取り、連続である関数を用い
ることが挙げられる。
域がckからdkまでの値を取り、連続である関数を用い
ることが挙げられる。
【0089】また、上記関数gk(xk)としては、gk(x
k) = Ak/(1+ exp(−(xk−bk)/ak)) ただし、k=1,2,...,n、 Ak,ak,bk は、入力パラメータxk により異なる定数 で表されるシグモイド関数もしくはその乗算による組み
合わせを用いることが挙げられる。
k) = Ak/(1+ exp(−(xk−bk)/ak)) ただし、k=1,2,...,n、 Ak,ak,bk は、入力パラメータxk により異なる定数 で表されるシグモイド関数もしくはその乗算による組み
合わせを用いることが挙げられる。
【0090】ここで、上記シグモイド関数もしくはその
乗算による組み合わせによる関数を、傾きの異なる複数
の直線により近似することが挙げられる。
乗算による組み合わせによる関数を、傾きの異なる複数
の直線により近似することが挙げられる。
【0091】入力パラメータとしては、上述した入力音
声信号のフレーム平均エネルギlev、正規化自己相関
ピーク値rp 、スペクトル類似度pos 、零交叉(ゼロ
クロス)数nZero 、ピッチラグpch 等が挙げられる。
声信号のフレーム平均エネルギlev、正規化自己相関
ピーク値rp 、スペクトル類似度pos 、零交叉(ゼロ
クロス)数nZero 、ピッチラグpch 等が挙げられる。
【0092】さらに、上述した入力パラメータlev ,rp
,pos ,nZero ,pch についてのV(有声音)らしさ
を表す関数をそれぞれpLev(lev) ,pR0r(rp) ,pPos(po
s),pNZero(nZero) ,pPch(pch) とするとき、これらの
関数を用いた最終的なV(有声音)らしさを表す関数f
(lev,rp,pos,nZero,pch) を、 f(lev,rp,pos,nZero,pch)=((αpR0r(rp)+βpLev
(lev))/(α+β))×pPos(pos)×pNZero(nZero)×p
Pch(pch) により計算することが挙げられる。ここで、α,βは、
pR0r,pLevをそれぞれ適当に重み付けするための定数で
ある。
,pos ,nZero ,pch についてのV(有声音)らしさ
を表す関数をそれぞれpLev(lev) ,pR0r(rp) ,pPos(po
s),pNZero(nZero) ,pPch(pch) とするとき、これらの
関数を用いた最終的なV(有声音)らしさを表す関数f
(lev,rp,pos,nZero,pch) を、 f(lev,rp,pos,nZero,pch)=((αpR0r(rp)+βpLev
(lev))/(α+β))×pPos(pos)×pNZero(nZero)×p
Pch(pch) により計算することが挙げられる。ここで、α,βは、
pR0r,pLevをそれぞれ適当に重み付けするための定数で
ある。
【0093】上記のようにして得られた関数fの値を、
所定の閾値で弁別することにより、V/UVの判定が行
われる。
所定の閾値で弁別することにより、V/UVの判定が行
われる。
【0094】次に、高信頼性ピッチ情報を用いてピッチ
検出が行われる様子を説明する。
検出が行われる様子を説明する。
【0095】まず、前述した手順により求めた高信頼性
ピッチ情報rblPch を基準値とし、さらに前フレームの
V/UV判定結果prevVUVを用いてピッチ検出を行う
場合について説明する。
ピッチ情報rblPch を基準値とし、さらに前フレームの
V/UV判定結果prevVUVを用いてピッチ検出を行う
場合について説明する。
【0096】このとき、高信頼性ピッチ情報rblPch と
前フレームのV/UV判定結果prevVUVとの値の組合
わせにより、次の〜の4つのケースに大別される。
前フレームのV/UV判定結果prevVUVとの値の組合
わせにより、次の〜の4つのケースに大別される。
【0097】 prevVUV≠0 かつ rblPch≠0のと
き;高信頼性ピッチ情報を主にピッチ検出を行う。すで
に1フレーム過去が有声音と判断されているので、ピッ
チ検出において、1フレーム過去の情報を優先させる。
き;高信頼性ピッチ情報を主にピッチ検出を行う。すで
に1フレーム過去が有声音と判断されているので、ピッ
チ検出において、1フレーム過去の情報を優先させる。
【0098】 prevVUV=0 かつ rblPch≠0のと
き;1フレーム過去が無声音であるので、そのピッチを
使用することはできない。従って、rblPchのみを参照
してピッチ検出を行う。
き;1フレーム過去が無声音であるので、そのピッチを
使用することはできない。従って、rblPchのみを参照
してピッチ検出を行う。
【0099】 prevVUV=1 かつ rblPch=0のと
き;少なくとも1フレーム過去は有声音と判断されてい
るので、そのピッチのみを参照してピッチ検出を行う。
き;少なくとも1フレーム過去は有声音と判断されてい
るので、そのピッチのみを参照してピッチ検出を行う。
【0100】 prevVUV=0 かつ rblPch=0のと
き;1フレーム過去が無声音と判断されているので、1
フレーム未来のピッチを参照してピッチ検出を行う。
き;1フレーム過去が無声音と判断されているので、1
フレーム未来のピッチを参照してピッチ検出を行う。
【0101】次に、上記説明した4つのケースについ
て、図6および図7のフローチャートを用いて具体的に
説明する。
て、図6および図7のフローチャートを用いて具体的に
説明する。
【0102】なお図6および図7の中で、!は否定を、
&&は「かつ(and)」を、trkPchは最終的に検出ピッチ
とされるピッチをそれぞれ表す。
&&は「かつ(and)」を、trkPchは最終的に検出ピッチ
とされるピッチをそれぞれ表す。
【0103】SearchPeaks(frm) (frm={0,2})
は、rp[1]≧rp[frm]もしくはrp[1]>0.7であるときpitc
h[1]となり、そうでないときcrntLag(n)をn=0,1,
・・・と順にサーチし、0.81×pitch[frm]<crntLag
(n)<1.2×pitch[frm]を最初に満たしたcrntLag(n)を
その値とする関数である。
は、rp[1]≧rp[frm]もしくはrp[1]>0.7であるときpitc
h[1]となり、そうでないときcrntLag(n)をn=0,1,
・・・と順にサーチし、0.81×pitch[frm]<crntLag
(n)<1.2×pitch[frm]を最初に満たしたcrntLag(n)を
その値とする関数である。
【0104】同様に、SearchPeaks3Frmsは、rp[0],r
p[1],rp[2]を比較し、rp[1]がrp[0],rp[2]以上である
か、もしくは0.7 より大きいときpitch[1]となり、そう
でないときは、自己相関ピーク値rp[0],rp[2]が大きい
フレームを参照フレームとして、上記SearchPeaks(fr
m)と同じ操作を行う関数である。
p[1],rp[2]を比較し、rp[1]がrp[0],rp[2]以上である
か、もしくは0.7 より大きいときpitch[1]となり、そう
でないときは、自己相関ピーク値rp[0],rp[2]が大きい
フレームを参照フレームとして、上記SearchPeaks(fr
m)と同じ操作を行う関数である。
【0105】まず、ステップS10では、「前フレーム
のV/UV判定結果prevVUVが0でなく かつ 高信頼
性ピッチ情報rblPchが0.0でない」という条件を満たす
かどうかが判定される。この条件を満たさない場合に
は、後述するステップS29に進む。一方、この条件を
満たす場合には、ステップS11に進む。
のV/UV判定結果prevVUVが0でなく かつ 高信頼
性ピッチ情報rblPchが0.0でない」という条件を満たす
かどうかが判定される。この条件を満たさない場合に
は、後述するステップS29に進む。一方、この条件を
満たす場合には、ステップS11に進む。
【0106】ステップS11では、 status0 = Ambiguous(pitch[0],rblPch,0.11) status1 = Ambiguous(pitch[1],rblPch,0.11) status2 = Ambiguous(pitch[2],rblPch,0.11) を定義する。
【0107】そして、ステップS12では、「status0
でない かつ status1でない かつ status2でない」とい
う条件を満たすかどうかが判定される。この条件を満た
す場合は、後述するステップS13に進み、この条件を
満たさない場合は、ステップS18に進む。
でない かつ status1でない かつ status2でない」とい
う条件を満たすかどうかが判定される。この条件を満た
す場合は、後述するステップS13に進み、この条件を
満たさない場合は、ステップS18に進む。
【0108】ステップS18では、「status0でない か
つ status2でない」という条件を満たすかどうかが判定
される。この条件を満たす場合は、ステップS19に進
み、SearchPeaks(0)がピッチとされる。一方、この条
件を満たさない場合は、ステップS20に進む。
つ status2でない」という条件を満たすかどうかが判定
される。この条件を満たす場合は、ステップS19に進
み、SearchPeaks(0)がピッチとされる。一方、この条
件を満たさない場合は、ステップS20に進む。
【0109】ステップS20では、「status1でない か
つ status2でない」という条件を満たすかどうかが判定
される。この条件を満たす場合は、ステップS21に進
み、SearchPeaks(2)がピッチとされる。一方、この条
件を満たさない場合は、ステップS22に進む。
つ status2でない」という条件を満たすかどうかが判定
される。この条件を満たす場合は、ステップS21に進
み、SearchPeaks(2)がピッチとされる。一方、この条
件を満たさない場合は、ステップS22に進む。
【0110】ステップS22では、「status0 でない」
という条件を満たすかどうかが判定される。この条件を
満たす場合は、trkPch=pitch[0] がピッチとされる。
一方、この条件を満たさない場合は、ステップS24に
進む。
という条件を満たすかどうかが判定される。この条件を
満たす場合は、trkPch=pitch[0] がピッチとされる。
一方、この条件を満たさない場合は、ステップS24に
進む。
【0111】ステップS24では、「status1 でない」
という条件を満たすかどうかが判定される。この条件を
満たす場合は、trkPch=pitch[1] がピッチとされる。
一方、この条件を満たさない場合は、ステップS26に
進む。
という条件を満たすかどうかが判定される。この条件を
満たす場合は、trkPch=pitch[1] がピッチとされる。
一方、この条件を満たさない場合は、ステップS26に
進む。
【0112】ステップS26では、「status2 でない」
という条件を満たすかどうかが判定される。この条件を
満たす場合は、trkPch=pitch[2]がピッチとされる。
一方、この条件を満たさない場合は、ステップS28に
進み、trkPch=rblPchがピッチとされる。
という条件を満たすかどうかが判定される。この条件を
満たす場合は、trkPch=pitch[2]がピッチとされる。
一方、この条件を満たさない場合は、ステップS28に
進み、trkPch=rblPchがピッチとされる。
【0113】また、前述したステップS13では、関数
Ambiguous(pitch[2],pitch[1],0.11)の真偽が判定さ
れる。この関数が真となる場合は、ステップS14に進
み、SearchPeaks(0)がピッチとされる。一方、この関
数が偽となる場合は、ステップS15に進む。
Ambiguous(pitch[2],pitch[1],0.11)の真偽が判定さ
れる。この関数が真となる場合は、ステップS14に進
み、SearchPeaks(0)がピッチとされる。一方、この関
数が偽となる場合は、ステップS15に進む。
【0114】ステップS15では、関数Ambiguous(pitc
h[0],pitch[1],0.11) の真偽が判定される。この関数
が真となる場合は、ステップS16に進み、SearchPe
aks(2)がピッチとされる。一方、この関数が偽となる場
合は、ステップS17に進み、SearchPeaks3Frms()が
ピッチとされる。
h[0],pitch[1],0.11) の真偽が判定される。この関数
が真となる場合は、ステップS16に進み、SearchPe
aks(2)がピッチとされる。一方、この関数が偽となる場
合は、ステップS17に進み、SearchPeaks3Frms()が
ピッチとされる。
【0115】次に、前述したステップS29では、「前
フレームがUV かつ 高信頼性ピッチ情報が 0.0」とい
う条件を満たすかどうか判定される。この条件を満たさ
ない場合は後述するステップS38に進む。一方、この
条件を満たす場合は、ステップS30に進む。
フレームがUV かつ 高信頼性ピッチ情報が 0.0」とい
う条件を満たすかどうか判定される。この条件を満たさ
ない場合は後述するステップS38に進む。一方、この
条件を満たす場合は、ステップS30に進む。
【0116】ステップS30では、 status0 = Ambiguous(pitch[0],rblPch,0.11) status1 = Ambiguous(pitch[2],rblPch,0.11) を定義する。
【0117】そして、ステップS31では、「stat
us0でない かつ status1でない」という条件を満た
すかどうかが判定される。この条件を満たす場合は、ス
テップS32に進み、SearchPeaks(2)がピッチとされ
る。一方、この条件を満たさない場合は、ステップS3
3に進む。
us0でない かつ status1でない」という条件を満た
すかどうかが判定される。この条件を満たす場合は、ス
テップS32に進み、SearchPeaks(2)がピッチとされ
る。一方、この条件を満たさない場合は、ステップS3
3に進む。
【0118】ステップS33では、「status0 でない」
という条件を満たすかどうかが判定される。この条件を
満たす場合は、trkPch=pitch[1]がピッチとされる。
一方、この条件を満たさない場合は、ステップS35に
進む。
という条件を満たすかどうかが判定される。この条件を
満たす場合は、trkPch=pitch[1]がピッチとされる。
一方、この条件を満たさない場合は、ステップS35に
進む。
【0119】ステップS35では、「status1 でない」
という条件を満たすかどうかが判定される。この条件を
満たす場合は、trkPch=pitch[2] がピッチとされる。
一方、この条件を満たさない場合は、ステップS37に
進み、trkPch=rblPchがピッチとされる。
という条件を満たすかどうかが判定される。この条件を
満たす場合は、trkPch=pitch[2] がピッチとされる。
一方、この条件を満たさない場合は、ステップS37に
進み、trkPch=rblPchがピッチとされる。
【0120】また、前述したステップS38では、「前
フレームがUVでない かつ 高信頼性ピッチ情報が 0.
0」という条件を満たすかどうか判定される。この条件
を満たさない場合はステップS40に進み、SearchPe
aks(2)がピッチとされる。一方、この条件を満たす場合
は、ステップS40に進む。
フレームがUVでない かつ 高信頼性ピッチ情報が 0.
0」という条件を満たすかどうか判定される。この条件
を満たさない場合はステップS40に進み、SearchPe
aks(2)がピッチとされる。一方、この条件を満たす場合
は、ステップS40に進む。
【0121】ステップS40では、関数Ambiguous(pitc
h[0],pitch[2],0.11) の真偽が判定される。この関数
が偽となる場合は、ステップS41に進み、SearchPe
aks3Frms()がピッチとされる。一方、この関数が真とな
る場合は、ステップS42に進み、SearchPeaks(0)が
ピッチとされる。
h[0],pitch[2],0.11) の真偽が判定される。この関数
が偽となる場合は、ステップS41に進み、SearchPe
aks3Frms()がピッチとされる。一方、この関数が真とな
る場合は、ステップS42に進み、SearchPeaks(0)が
ピッチとされる。
【0122】以上の手順により、高信頼性ピッチ情報を
用いたピッチ検出が行われる。
用いたピッチ検出が行われる。
【0123】以上の具体例においては、高信頼性ピッチ
情報と共にV/UV判定結果を用いるピッチ検出の例を
説明したが、通常のピッチ検出にさらにV/UV判定結
果のみを用いる場合のピッチ検出の具体例について以下
説明する。
情報と共にV/UV判定結果を用いるピッチ検出の例を
説明したが、通常のピッチ検出にさらにV/UV判定結
果のみを用いる場合のピッチ検出の具体例について以下
説明する。
【0124】ここでは、現在以外の符号化単位(フレー
ム)のV/UV判定結果をもピッチ検出に用いるため
に、正規化自己相関ピーク値r'(n)(0≦r'(n)≦1.
0)ゼロクロス数nZero(0≦nZero<160)フレーム平
均レベルlevの3つのパラメータのみからV/UV判定
を行う。
ム)のV/UV判定結果をもピッチ検出に用いるため
に、正規化自己相関ピーク値r'(n)(0≦r'(n)≦1.
0)ゼロクロス数nZero(0≦nZero<160)フレーム平
均レベルlevの3つのパラメータのみからV/UV判定
を行う。
【0125】この3つのパラメータについて、それぞれ
有声音(V)らしさを次式のように計算する。
有声音(V)らしさを次式のように計算する。
【0126】 pRp(rp) = 1.0/{1.0+exp(-(rp−0.3/0.06))} ・・・(1) pNZero(nZero) = 1.0/{exp((nZero-70.0)/12.0)} ・・・(2) pLev(lev) = 1.0/{1.0+exp(-(lev−400.0/100.0))} ・・・(3) そして、(1)〜(3)式を用いて、最終的な有声音
(V)らしさを次式のように定義する。
(V)らしさを次式のように定義する。
【0127】 f(nZero,rp,lev) = pNZero(nZero)×{1.2×pRp(rp)+0.8×pLev(lev)}/2.0 ・・・(4) そして、fが0.5以上であれば有声音(V),fが
0.5より小さければ無声音(UV)と判定する。
0.5より小さければ無声音(UV)と判定する。
【0128】次に、V/UV判定結果のみを用いるピッ
チ検出の具体的な手順を、図8のフローチャートを参照
しながら説明する。
チ検出の具体的な手順を、図8のフローチャートを参照
しながら説明する。
【0129】ここで、prevVUVは前フレームのV/U
V判定結果であり、その値が1のとき有声音(V)を表
し、その値が0のとき無声音(UV)を表す。
V判定結果であり、その値が1のとき有声音(V)を表
し、その値が0のとき無声音(UV)を表す。
【0130】まず、ステップS50で現在のフレームの
V/UV判定を行い、「判定結果prevVUVの値が1で
あるか」、すなわち有声音であるかどうかを判断する。
ステップS50で無声音と判断された場合は、ステップ
S51に進みtrkPch=0.0がピッチとされる。一方、ス
テップS50で有声音と判断された場合は、ステップS
52に進む。
V/UV判定を行い、「判定結果prevVUVの値が1で
あるか」、すなわち有声音であるかどうかを判断する。
ステップS50で無声音と判断された場合は、ステップ
S51に進みtrkPch=0.0がピッチとされる。一方、ス
テップS50で有声音と判断された場合は、ステップS
52に進む。
【0131】ステップS52では、「過去フレームと未
来フレームとのV/UV判定結果が共に1であるか」、
すなわち共に有声音であるかどうかを判断する。これを
満足しない場合は、後述するステップS53に進む。一
方、過去フレームと未来フレームとが共に有声音である
場合には、ステップS54に進む。
来フレームとのV/UV判定結果が共に1であるか」、
すなわち共に有声音であるかどうかを判断する。これを
満足しない場合は、後述するステップS53に進む。一
方、過去フレームと未来フレームとが共に有声音である
場合には、ステップS54に進む。
【0132】ステップS54では、2つのピッチpitch
[2],pitch[1]および定数0.11との関係を示す関数Ambig
uos(pitch[2],pitch[1],0.11)の真偽が判定される。
そして、上記関数が真となる場合には、ステップS55
に進み、trkPch=SearchPeaks(0)、すなわちrp[1]≧
rp[0]もしくはrp[1]>0.7であるとき pitch[1]とな
り、そうでないときcrntLag(n)をn=0,1,・・・と
順にサーチし、0.81×pitch[0]<crntLag(n)<1.2×pi
tch[0]を最初に満たしたcrntLag(n)とする。一方、Amb
iguos(pitch[0],pitch[1],0.11)が偽である場合は、
ステップS56に進む。
[2],pitch[1]および定数0.11との関係を示す関数Ambig
uos(pitch[2],pitch[1],0.11)の真偽が判定される。
そして、上記関数が真となる場合には、ステップS55
に進み、trkPch=SearchPeaks(0)、すなわちrp[1]≧
rp[0]もしくはrp[1]>0.7であるとき pitch[1]とな
り、そうでないときcrntLag(n)をn=0,1,・・・と
順にサーチし、0.81×pitch[0]<crntLag(n)<1.2×pi
tch[0]を最初に満たしたcrntLag(n)とする。一方、Amb
iguos(pitch[0],pitch[1],0.11)が偽である場合は、
ステップS56に進む。
【0133】ステップS56では、2つのピッチpitch
[0],pitch[1]および定数0.11との関係を示す関数Ambig
uos(pitch[0],pitch[1],0.11)の真偽が判定される。
そして、上記関数が真となる場合には、ステップS57
に進み、trkPch=SearchPeaks(2)とする。一方、Amb
iguos(pitch[0],pitch[1],0.11) が偽である場合は、
ステップS58に進み、trkPch=SearchPeaks3Fr
m()、すなわち、rp[0],rp[1],rp[2]を比較し、rp[1]
がrp[0],rp[2]以上であるか、もしくは0.7 より大きい
ときpitch[1]となり、そうでないときは、自己相関ピー
ク値rp[0],rp[2]が大きいフレームを参照フレームとし
て、上記SearchPeaks(frm)と同じ操作を行う。
[0],pitch[1]および定数0.11との関係を示す関数Ambig
uos(pitch[0],pitch[1],0.11)の真偽が判定される。
そして、上記関数が真となる場合には、ステップS57
に進み、trkPch=SearchPeaks(2)とする。一方、Amb
iguos(pitch[0],pitch[1],0.11) が偽である場合は、
ステップS58に進み、trkPch=SearchPeaks3Fr
m()、すなわち、rp[0],rp[1],rp[2]を比較し、rp[1]
がrp[0],rp[2]以上であるか、もしくは0.7 より大きい
ときpitch[1]となり、そうでないときは、自己相関ピー
ク値rp[0],rp[2]が大きいフレームを参照フレームとし
て、上記SearchPeaks(frm)と同じ操作を行う。
【0134】前述した、ステップS53では、「過去フ
レームのV/UV判定結果が1であるか」、すなわち有
声音であるかどうかが判断される。過去フレームが有声
音である場合には、ステップS59に進み、trkPch=
SearchPeaks(0) がピッチとされる。一方、過去フレ
ームが無声音である場合には、ステップS60に進む。
レームのV/UV判定結果が1であるか」、すなわち有
声音であるかどうかが判断される。過去フレームが有声
音である場合には、ステップS59に進み、trkPch=
SearchPeaks(0) がピッチとされる。一方、過去フレ
ームが無声音である場合には、ステップS60に進む。
【0135】ステップS60では、「未来フレームのV
/UV判定結果が1であるか」、すなわち有声音である
かどうかが判断される。未来フレームが有声音である場
合には、ステップS61に進み、trkPch=SearchPea
ks(0) がピッチとされる。一方、未来フレームが無声音
である場合には、ステップS62に進みtrkPch は現フ
レームのピッチpitch[1]がピッチとされる。
/UV判定結果が1であるか」、すなわち有声音である
かどうかが判断される。未来フレームが有声音である場
合には、ステップS61に進み、trkPch=SearchPea
ks(0) がピッチとされる。一方、未来フレームが無声音
である場合には、ステップS62に進みtrkPch は現フ
レームのピッチpitch[1]がピッチとされる。
【0136】以上説明したV/UV判定結果をサンプル
音声のピッチ検出に適用した結果の一例を図9に示す。
横軸はフレーム数、縦軸はピッチを表している。
音声のピッチ検出に適用した結果の一例を図9に示す。
横軸はフレーム数、縦軸はピッチを表している。
【0137】図9(a)は、従来のピッチ検出方法によ
る検出ピッチ軌跡を示している。また、図9(b)は、
高信頼性ピッチ情報とV/UV判定結果を共に用いる本
発明に係るピッチ検出方法による検出ピッチ軌跡を示し
ている。
る検出ピッチ軌跡を示している。また、図9(b)は、
高信頼性ピッチ情報とV/UV判定結果を共に用いる本
発明に係るピッチ検出方法による検出ピッチ軌跡を示し
ている。
【0138】この結果から明らかなように、本発明に係
るピッチ検出方法は、音声信号の有声音(V)と判定さ
れた部分で高信頼性ピッチ情報を設定し、その値を所定
の時間、この例においては5フレーム間保持する。この
結果、例えば、図9(a)の150サンプル目付近に見
られるようなピッチが急に変化する部分でのピッチ誤検
出を起こすことがない。
るピッチ検出方法は、音声信号の有声音(V)と判定さ
れた部分で高信頼性ピッチ情報を設定し、その値を所定
の時間、この例においては5フレーム間保持する。この
結果、例えば、図9(a)の150サンプル目付近に見
られるようなピッチが急に変化する部分でのピッチ誤検
出を起こすことがない。
【0139】以上説明したような信号符号化装置および
信号復号化装置は、例えば図10および図11に示すよ
うな携帯通信端末あるいは携帯電話機等に使用される音
声コーデックとして用いることができる。
信号復号化装置は、例えば図10および図11に示すよ
うな携帯通信端末あるいは携帯電話機等に使用される音
声コーデックとして用いることができる。
【0140】すなわち、図10は、上記図1、図3に示
したような構成を有する音声符号化部160を用いて成
る携帯端末の送信側構成を示している。この図10のマ
イクロホン161で集音された音声信号は、アンプ16
2で増幅され、A/D(アナログ/ディジタル)変換器
163でディジタル信号に変換されて、音声符号化部1
60に送られる。この音声符号化部160は、上述した
図1、図3に示すような構成を有しており、この入力端
子101に上記A/D変換器163からのディジタル信
号が入力される。音声符号化部160では、上記図1、
図3と共に説明したような符号化処理が行われ、図1、
図3の各出力端子からの出力信号は、音声符号化部16
0の出力信号として、伝送路符号化部164に送られ
る。伝送路符号化部164では、いわゆるチャネルコー
ディング処理が施され、その出力信号が変調回路165
に送られて変調され、D/A(ディジタル/アナログ)
変換器166、RFアンプ167を介して、アンテナ1
68に送られる。
したような構成を有する音声符号化部160を用いて成
る携帯端末の送信側構成を示している。この図10のマ
イクロホン161で集音された音声信号は、アンプ16
2で増幅され、A/D(アナログ/ディジタル)変換器
163でディジタル信号に変換されて、音声符号化部1
60に送られる。この音声符号化部160は、上述した
図1、図3に示すような構成を有しており、この入力端
子101に上記A/D変換器163からのディジタル信
号が入力される。音声符号化部160では、上記図1、
図3と共に説明したような符号化処理が行われ、図1、
図3の各出力端子からの出力信号は、音声符号化部16
0の出力信号として、伝送路符号化部164に送られ
る。伝送路符号化部164では、いわゆるチャネルコー
ディング処理が施され、その出力信号が変調回路165
に送られて変調され、D/A(ディジタル/アナログ)
変換器166、RFアンプ167を介して、アンテナ1
68に送られる。
【0141】また、図11は、上記図2に示したような
基本構成を有する音声復号化部260を用いて成る携帯
端末の受信側構成を示している。この図11のアンテナ
261で受信された音声信号は、RFアンプ262で増
幅され、A/D(アナログ/ディジタル)変換器263
を介して、復調回路264に送られ、復調信号が伝送路
復号化部265に送られる。264からの出力信号は、
上記図2に示すような構成を有する音声復号化部260
に送られる。音声復号化部260では、上記図2に説明
したような復号化処理が施され、図2の出力端子201
からの出力信号が、音声復号化部260からの信号とし
てD/A(ディジタル/アナログ)変換器266に送ら
れる。このD/A変換器266からのアナログ音声信号
がスピーカ268に送られる。
基本構成を有する音声復号化部260を用いて成る携帯
端末の受信側構成を示している。この図11のアンテナ
261で受信された音声信号は、RFアンプ262で増
幅され、A/D(アナログ/ディジタル)変換器263
を介して、復調回路264に送られ、復調信号が伝送路
復号化部265に送られる。264からの出力信号は、
上記図2に示すような構成を有する音声復号化部260
に送られる。音声復号化部260では、上記図2に説明
したような復号化処理が施され、図2の出力端子201
からの出力信号が、音声復号化部260からの信号とし
てD/A(ディジタル/アナログ)変換器266に送ら
れる。このD/A変換器266からのアナログ音声信号
がスピーカ268に送られる。
【0142】なお、本発明は上記実施の形態のみに限定
されるものではなく、例えば上記図1、図3の音声分析
側(エンコード側)の構成や、図2の音声合成側(デコ
ード側)の構成については、各部をハードウェア的に記
載しているが、いわゆるDSP(ディジタル信号プロセ
ッサ)等を用いてソフトウェアプログラムにより実現す
ることも可能である。また、本発明の適用範囲は、伝送
や記録再生に限定されず、ピッチ変換やスピード変換、
規則音声合成、あるいは雑音抑圧のような種々の用途に
応用できることは勿論である。
されるものではなく、例えば上記図1、図3の音声分析
側(エンコード側)の構成や、図2の音声合成側(デコ
ード側)の構成については、各部をハードウェア的に記
載しているが、いわゆるDSP(ディジタル信号プロセ
ッサ)等を用いてソフトウェアプログラムにより実現す
ることも可能である。また、本発明の適用範囲は、伝送
や記録再生に限定されず、ピッチ変換やスピード変換、
規則音声合成、あるいは雑音抑圧のような種々の用途に
応用できることは勿論である。
【0143】なお、本発明は上記実施の形態のみに限定
されるものではなく、例えば上記図1、図3の音声分析
側(エンコーダ側)の構成については、各部をハードウ
ェア的に記載しているが、いわゆるDSP(ディジタル
信号プロセッサ)等を用いてソフトウェアプログラムに
より実現することも可能である。
されるものではなく、例えば上記図1、図3の音声分析
側(エンコーダ側)の構成については、各部をハードウ
ェア的に記載しているが、いわゆるDSP(ディジタル
信号プロセッサ)等を用いてソフトウェアプログラムに
より実現することも可能である。
【0144】さらに、本発明の適用範囲は、伝送や記録
再生に限定されず、ピッチ変換やスピード変換、規則音
声合成、あるいは雑音抑圧のような種々の用途に応用で
きることは勿論である。
再生に限定されず、ピッチ変換やスピード変換、規則音
声合成、あるいは雑音抑圧のような種々の用途に応用で
きることは勿論である。
【0145】
【発明の効果】以上説明したように、本発明のピッチ検
出方法によれば、ピッチサーチにより検出されたピッチ
情報と、入力音声信号の音声レベルと、上記入力音声信
号の自己相関ピーク値とに基づいて、上記ピッチ情報よ
りもピッチである可能性がより高い場合に真となる条件
を満足する高信頼性ピッチ情報を設定し、それに基づい
てピッチを決定するため、入力音声信号中のハーフピッ
チや倍ピッチを誤検出することなく高精度にピッチ検出
を行うことができる。
出方法によれば、ピッチサーチにより検出されたピッチ
情報と、入力音声信号の音声レベルと、上記入力音声信
号の自己相関ピーク値とに基づいて、上記ピッチ情報よ
りもピッチである可能性がより高い場合に真となる条件
を満足する高信頼性ピッチ情報を設定し、それに基づい
てピッチを決定するため、入力音声信号中のハーフピッ
チや倍ピッチを誤検出することなく高精度にピッチ検出
を行うことができる。
【0146】また、本発明の音声信号符号化方法および
装置によれば、上記の本発明のピッチ検出方法を適用
し、さらに、入力音声信号に対する有声音/無声音判定
結果に基づいて、入力音声信号の有声音部分に対しては
サイン波分析符号化を行い、無声音部分に対しては波形
符号化による符号化を行うようにしたため、効率よく、
しかもハーフピッチや倍ピッチを誤検出することなく高
精度の符号化を行うことができ、無声音部分でも鼻詰ま
り感のない明瞭度の高い再生音が得られ、有声音部分に
おいても自然な合成音を得ることができる。また、無声
音部と有声音部との遷移部分で異音等が発生することも
ない。
装置によれば、上記の本発明のピッチ検出方法を適用
し、さらに、入力音声信号に対する有声音/無声音判定
結果に基づいて、入力音声信号の有声音部分に対しては
サイン波分析符号化を行い、無声音部分に対しては波形
符号化による符号化を行うようにしたため、効率よく、
しかもハーフピッチや倍ピッチを誤検出することなく高
精度の符号化を行うことができ、無声音部分でも鼻詰ま
り感のない明瞭度の高い再生音が得られ、有声音部分に
おいても自然な合成音を得ることができる。また、無声
音部と有声音部との遷移部分で異音等が発生することも
ない。
【図1】本発明に係る音声信号符号化方法の実施の形態
が適用される音声信号符号化装置の基本構成を示すブロ
ック図である。
が適用される音声信号符号化装置の基本構成を示すブロ
ック図である。
【図2】本発明に係る音声信号復号化方法の実施の形態
が適用される音声信号復号化装置の基本構成を示すブロ
ック図である。
が適用される音声信号復号化装置の基本構成を示すブロ
ック図である。
【図3】本発明の実施の形態となる音声信号符号化装置
のより具体的な構成を示すブロック図である。
のより具体的な構成を示すブロック図である。
【図4】高信頼性ピッチ情報が設定される手順を示すフ
ローチャートである。
ローチャートである。
【図5】高信頼性ピッチ情報がリセットされる手順を示
すフローチャートである。
すフローチャートである。
【図6】図3の構成におけるピッチ検出の手順の一例を
示すフローチャートである。
示すフローチャートである。
【図7】図3の構成におけるピッチ検出の手順の一例を
示すフローチャートである。
示すフローチャートである。
【図8】図3の構成におけるピッチ検出の手順の別の一
例を示すフローチャートである。
例を示すフローチャートである。
【図9】図3の構成におけるピッチ検出結果を示す図で
ある。
ある。
【図10】本発明の実施の形態となる音声信号符号化装
置が用いられる携帯端末の送信側構成を示すブロック図
である。
置が用いられる携帯端末の送信側構成を示すブロック図
である。
【図11】本発明の実施の形態となる音声信号符号化装
置が用いられる携帯端末の受信側構成を示すブロック図
である。
置が用いられる携帯端末の受信側構成を示すブロック図
である。
110 第1の符号化部、111 LPC逆フィルタ、
113 LPC分析・量子化部、114 サイン波分析
符号化部、115 V/UV判定部、120第2の符号
化部、121 雑音符号帳、122 重み付き合成フィ
ルタ、123減算器、124 距離計算回路、125
聴覚重み付けフィルタ
113 LPC分析・量子化部、114 サイン波分析
符号化部、115 V/UV判定部、120第2の符号
化部、121 雑音符号帳、122 重み付き合成フィ
ルタ、123減算器、124 距離計算回路、125
聴覚重み付けフィルタ
Claims (6)
- 【請求項1】 入力音声信号を時間軸上で所定の符号化
単位で区分し、その区分された各符号化単位の音声信号
の基本周期に相当するピッチを検出するピッチ検出方法
において、 所定のピッチ検出条件のもとにピッチ情報の検出を行う
ピッチサーチ工程と、 検出されたピッチ情報と、上記入力音声信号の音声レベ
ルと、上記入力音声信号の自己相関ピーク値とに基づい
て、上記ピッチ情報よりもピッチである可能性が高い場
合に真となる条件を満足する高信頼性ピッチ情報を設定
する工程と、 設定された高信頼性ピッチ情報に基づいてピッチを決定
する工程とを有してなることを特徴とするピッチ検出方
法。 - 【請求項2】 上記高信頼性ピッチ情報を設定する工程
では、 高信頼性ピッチ情報候補値が設定され、 この高信頼性ピッチ情報候補値に充分近いピッチが検出
されたとき高信頼性ピッチ情報候補値は更新され、 そうでないときは上記高信頼性ピッチ情報候補値は棄却
され、 上記高信頼性ピッチ情報候補値がある所定の時間保持さ
れたとき、高信頼性ピッチ情報が設定されることを特徴
とする請求項1記載のピッチ検出方法。 - 【請求項3】 上記設定された高信頼性ピッチ情報は所
定時間保持され、 上記高信頼性情報が次の符号化単位で検出されるピッチ
に充分近いときにはその値が更新され、上記所定時間内
に上記高信頼性ピッチ情報の更新が行われないときには
その値が棄却されることを特徴とする請求項1記載のピ
ッチ検出方法。 - 【請求項4】 上記ピッチサーチ工程はオープンループ
による粗いピッチサーチを行う粗ピッチサーチ工程であ
り、 上記決定されたピッチ情報に対してクローズドループに
よる高精度のピッチサーチを行うことを特徴とする請求
項1記載のピッチ検出方法。 - 【請求項5】 入力音声信号を時間軸上で所定の符号化
単位で区分し、その区分された各符号化単位の音声信号
に符号化を行う音声信号符号化方法において、 所定のピッチ検出条件のもとにピッチ情報の検出を行う
ピッチサーチ工程と、 検出されたピッチ情報と、上記入力音声信号の音声レベ
ルと、上記入力音声信号の自己相関ピーク値とに基づい
て、上記ピッチ検出条件よりもピッチである可能性がよ
り高い場合に真となる条件を満足する高信頼性ピッチ情
報を設定する工程と、 設定された高信頼性ピッチ情報に基づいてピッチを決定
する工程と、 入力音声信号の短期予測残差を求める予測符号化工程
と、 求められた短期予測残差に対してサイン波分析符号化を
施すサイン波分析符号化工程と、 上記入力音声信号に対して波形符号化による符号化を施
す波形符号化工程と、 上記入力音声信号に対して有声音/無声音判定を行う判
定工程とを有してなることを特徴とする音声信号符号化
方法。 - 【請求項6】 入力音声信号を時間軸上で所定の符号化
単位で区分し、その区分された各符号化単位の音声信号
に対して符号化を行う音声信号符号化装置において、 入力音声信号の短期予測残差を求める予測符号化手段
と、 求められた短期予測残差に対してサイン波分析符号化を
施すサイン波分析符号化手段と、 上記入力音声信号に対して波形符号化による符号化を施
す波形符号化手段と、 上記入力音声信号に対して有声音/無声音判定を行う判
定手段と 入力音声信号に対してピッチ検出を行ってピッチ情報を
求める手段と、 検出されたピッチ情報に対して高信頼性ピッチ情報の設
定を行う手段とを有し、 上記判定手段の判定結果に基づいて、有声音とされた符
号化単位に対しては上記サイン波分析符号化手段による
符号化出力を取り出し、 無声音とされた符号化単位に対しては上記符号励起線形
予測符号化手段による符号化出力を取り出し、 上記サイン波分析符号化手段による符号化出力は、上記
設定された高信頼性ピッチ情報に基づいてピッチが決定
されることを特徴とする音声信号符号化装置。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP8257128A JPH10105194A (ja) | 1996-09-27 | 1996-09-27 | ピッチ検出方法、音声信号符号化方法および装置 |
| US08/927,895 US6243672B1 (en) | 1996-09-27 | 1997-09-11 | Speech encoding/decoding method and apparatus using a pitch reliability measure |
| SG1997003551A SG53078A1 (en) | 1996-09-27 | 1997-09-24 | Speech encoding method and apparatus and speech decoding method and apparatus |
| KR1019970048768A KR100538987B1 (ko) | 1996-09-27 | 1997-09-25 | 음성부호화방법및장치,피치검출방법 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP8257128A JPH10105194A (ja) | 1996-09-27 | 1996-09-27 | ピッチ検出方法、音声信号符号化方法および装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH10105194A true JPH10105194A (ja) | 1998-04-24 |
Family
ID=17302125
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP8257128A Pending JPH10105194A (ja) | 1996-09-27 | 1996-09-27 | ピッチ検出方法、音声信号符号化方法および装置 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US6243672B1 (ja) |
| JP (1) | JPH10105194A (ja) |
| KR (1) | KR100538987B1 (ja) |
| SG (1) | SG53078A1 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7835905B2 (en) | 2006-04-17 | 2010-11-16 | Samsung Electronics Co., Ltd | Apparatus and method for detecting degree of voicing of speech signal |
Families Citing this family (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6006174A (en) * | 1990-10-03 | 1999-12-21 | Interdigital Technology Coporation | Multiple impulse excitation speech encoder and decoder |
| US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
| FI116992B (fi) * | 1999-07-05 | 2006-04-28 | Nokia Corp | Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi |
| US20070163425A1 (en) * | 2000-03-13 | 2007-07-19 | Tsui Chi-Ying | Melody retrieval system |
| US7035932B1 (en) * | 2000-10-27 | 2006-04-25 | Eric Morgan Dowling | Federated multiprotocol communication |
| KR100463417B1 (ko) * | 2002-10-10 | 2004-12-23 | 한국전자통신연구원 | 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치 |
| KR100526110B1 (ko) * | 2003-11-19 | 2005-11-08 | 학교법인연세대학교 | 화자인식시스템의 화자 특징벡터 생성방법 및 시스템 |
| US7933767B2 (en) * | 2004-12-27 | 2011-04-26 | Nokia Corporation | Systems and methods for determining pitch lag for a current frame of information |
| US8219392B2 (en) * | 2005-12-05 | 2012-07-10 | Qualcomm Incorporated | Systems, methods, and apparatus for detection of tonal components employing a coding operation with monotone function |
| KR101441898B1 (ko) * | 2008-02-01 | 2014-09-23 | 삼성전자주식회사 | 주파수 부호화 방법 및 장치와 주파수 복호화 방법 및 장치 |
| KR20090122143A (ko) * | 2008-05-23 | 2009-11-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
| FR2938688A1 (fr) * | 2008-11-18 | 2010-05-21 | France Telecom | Codage avec mise en forme du bruit dans un codeur hierarchique |
| WO2010091554A1 (zh) * | 2009-02-13 | 2010-08-19 | 华为技术有限公司 | 一种基音周期检测方法和装置 |
| CN101572089B (zh) * | 2009-05-21 | 2012-01-25 | 华为技术有限公司 | 信号周期检测方法及其装置 |
| US8990094B2 (en) | 2010-09-13 | 2015-03-24 | Qualcomm Incorporated | Coding and decoding a transient frame |
| US9071340B2 (en) * | 2013-09-02 | 2015-06-30 | Samsung Electronics Co., Ltd. | Method and apparatus for generating orthogonal codes with wide range of spreading factor |
| US10290303B2 (en) * | 2016-08-25 | 2019-05-14 | Google Llc | Audio compensation techniques for network outages |
| US9779755B1 (en) | 2016-08-25 | 2017-10-03 | Google Inc. | Techniques for decreasing echo and transmission periods for audio communication sessions |
Family Cites Families (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4803730A (en) | 1986-10-31 | 1989-02-07 | American Telephone And Telegraph Company, At&T Bell Laboratories | Fast significant sample detection for a pitch detector |
| ES2037101T3 (es) | 1987-03-05 | 1993-06-16 | International Business Machines Corporation | Procedimiento de deteccion de tono y codificador de voz que utiliza dicho procedimiento. |
| US4809334A (en) * | 1987-07-09 | 1989-02-28 | Communications Satellite Corporation | Method for detection and correction of errors in speech pitch period estimates |
| US5003604A (en) | 1988-03-14 | 1991-03-26 | Fujitsu Limited | Voice coding apparatus |
| US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
| US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
| JPH05265489A (ja) * | 1992-03-18 | 1993-10-15 | Sony Corp | ピッチ抽出方法 |
| JPH0736492A (ja) * | 1993-07-20 | 1995-02-07 | Matsushita Electric Ind Co Ltd | コードブック作成装置 |
| JPH0736491A (ja) * | 1993-07-22 | 1995-02-07 | Matsushita Electric Ind Co Ltd | ピッチ抽出装置 |
| KR960011132B1 (ko) * | 1993-11-22 | 1996-08-20 | 재단법인 한국전자통신연구소 | 씨이엘피(celp) 보코더에서의 피치검색방법 |
| CA2149163C (en) * | 1994-06-28 | 1999-01-26 | Jeffrey Wayne Daugherty | Detection of tones while minimizing incorrect identification of other sounds as tones |
| JP3418005B2 (ja) * | 1994-08-04 | 2003-06-16 | 富士通株式会社 | 音声ピッチ検出装置 |
| JP3517979B2 (ja) * | 1994-09-16 | 2004-04-12 | ソニー株式会社 | オーディオ信号処理方法とその装置 |
| US5699477A (en) * | 1994-11-09 | 1997-12-16 | Texas Instruments Incorporated | Mixed excitation linear prediction with fractional pitch |
| US5704000A (en) * | 1994-11-10 | 1997-12-30 | Hughes Electronics | Robust pitch estimation method and device for telephone speech |
| AU696092B2 (en) * | 1995-01-12 | 1998-09-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
| US5774836A (en) * | 1996-04-01 | 1998-06-30 | Advanced Micro Devices, Inc. | System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator |
-
1996
- 1996-09-27 JP JP8257128A patent/JPH10105194A/ja active Pending
-
1997
- 1997-09-11 US US08/927,895 patent/US6243672B1/en not_active Expired - Lifetime
- 1997-09-24 SG SG1997003551A patent/SG53078A1/en unknown
- 1997-09-25 KR KR1019970048768A patent/KR100538987B1/ko not_active Expired - Fee Related
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7835905B2 (en) | 2006-04-17 | 2010-11-16 | Samsung Electronics Co., Ltd | Apparatus and method for detecting degree of voicing of speech signal |
Also Published As
| Publication number | Publication date |
|---|---|
| SG53078A1 (en) | 1998-09-28 |
| US6243672B1 (en) | 2001-06-05 |
| KR19980024970A (ko) | 1998-07-06 |
| KR100538987B1 (ko) | 2006-03-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3707116B2 (ja) | 音声復号化方法及び装置 | |
| JP3653826B2 (ja) | 音声復号化方法及び装置 | |
| JP3840684B2 (ja) | ピッチ抽出装置及びピッチ抽出方法 | |
| JP4121578B2 (ja) | 音声分析方法、音声符号化方法および装置 | |
| JP4005154B2 (ja) | 音声復号化方法及び装置 | |
| JP3680380B2 (ja) | 音声符号化方法及び装置 | |
| US6493664B1 (en) | Spectral magnitude modeling and quantization in a frequency domain interpolative speech codec system | |
| KR100487136B1 (ko) | 음성복호화방법및장치 | |
| US6691092B1 (en) | Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system | |
| RU2255380C2 (ru) | Способ и устройство воспроизведения речевых сигналов и способ их передачи | |
| JPH10105194A (ja) | ピッチ検出方法、音声信号符号化方法および装置 | |
| JP4218134B2 (ja) | 復号装置及び方法、並びにプログラム提供媒体 | |
| JP4040126B2 (ja) | 音声復号化方法および装置 | |
| EP0573398A2 (en) | C.E.L.P. Vocoder | |
| JPH05346797A (ja) | 有声音判別方法 | |
| WO2001022403A1 (en) | Lpc-harmonic vocoder with superframe structure | |
| JP3687181B2 (ja) | 有声音/無声音判定方法及び装置、並びに音声符号化方法 | |
| JP2001005474A (ja) | 音声符号化装置及び方法、入力信号判定方法、音声復号装置及び方法、並びにプログラム提供媒体 | |
| JPH10124092A (ja) | 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置 | |
| JPH10105195A (ja) | ピッチ検出方法、音声信号符号化方法および装置 | |
| JPH10214100A (ja) | 音声合成方法 | |
| JPH11177434A (ja) | 音声符号化復号方式 | |
| JP4230550B2 (ja) | 音声符号化方法及び装置、並びに音声復号化方法及び装置 | |
| JP3896654B2 (ja) | 音声信号区間検出方法及び装置 | |
| JPH09127993A (ja) | 音声符号化方法及び音声符号化装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20041116 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041124 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050124 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050712 |