JPH09281996A

JPH09281996A - 有声音／無声音判定方法及び装置、並びに音声符号化方法

Info

Publication number: JPH09281996A
Application number: JP8092848A
Authority: JP
Inventors: Kazuyuki Iijima; 和幸飯島; Masayuki Nishiguchi; 正之西口; Atsushi Matsumoto; 淳松本; Shiro Omori; 士郎大森
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1996-04-15
Filing date: 1996-04-15
Publication date: 1997-10-31
Anticipated expiration: 2016-04-15
Also published as: CN1173690A; KR970072718A; JP3687181B2; US6023671A

Abstract

(57)【要約】【課題】有声音／無声音（Ｖ／ＵＶ）の判定のための
各入力パラメータを総合的に判断し、単純なアルゴリズ
ムで高精度なＶ／ＵＶ判定を行う。【解決手段】入力音声信号に関する有声音／無声音判
定のためのパラメータとして、入力音声信号のフレーム
平均エネルギlev 、正規化自己相関ピーク値r0r、スペ
クトル類似度pos 、零交叉（ゼロクロス）数nZero 、ピ
ッチラグpch を、入力端子１１〜１５に供給する。これ
らのパラメータをｘとするとき、関数計算回路３１〜３
５により、それぞれｇ(ｘ) ＝１／（１＋ exp（−(ｘ−ｂ)/ａ））ただし、ａ，ｂは定数で表されるシグモイド関数ｇ(ｘ)により変換し、このシ
グモイド関数ｇ(ｘ)により変換されたパラメータを用い
て、Ｖ／ＵＶ判定回路２６により有声音／無声音判定を
行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力音声信号が有
声音か無声音かを判定するための有声音／無声音判定方
法及び装置、並びに該有声音／無声音判定方法を用いた
音声符号化方法に関する。

【０００２】

【従来の技術】オーディオ信号（音声信号や音響信号を
含む）の時間領域や周波数領域における統計的性質と人
間の聴感上の特性を利用して信号圧縮を行うような符号
化方法が種々知られている。この符号化方法としては、
大別して時間領域での符号化、周波数領域での符号化、
分析合成符号化等が挙げられる。

【０００３】ここで、音声信号を符号化する場合には、
入力音声信号が有声音か無声音かの判定情報を用いるこ
とが多く行われている。有声音（voiced sound）とは、
声帯の振動を伴う音のことであり、無声音（unvoiced s
ound）とは、声帯の振動を伴わない音のことである。

【０００４】一般に、有声音（Ｖ）と無声音（ＵＶ）と
の判定（Ｖ／ＵＶ判定）は、ピッチ抽出に付随した方法
で行われ、これは周期性／非周期性の特徴としての自己
相関関数のピーク等により有声音／無声音（Ｖ／ＵＶ）
の判定を行うものであるが、周期性を持たないが有声音
であるような場合に有効な判定が行えないことより、他
のパラメータとして、例えば音声信号のエネルギ、零交
叉数等も用いるようにしている。

【０００５】

【発明が解決しようとする課題】ところで、従来の有声
音／無声音の判定においては、それぞれのパラメータの
判定結果を論理演算するような決定的なルールによって
有声音／無声音（Ｖ／ＵＶ）の判定を行っているため、
入力パラメータ全てを総合的に判断することが難しい。
例えば、「フレーム平均エネルギが所定の閾値より大き
く、かつ、残差の自己相関ピーク値が所定の閾値より大
きいとき、Ｖ（有声音）である。」といったルールで
は、フレーム平均エネルギが閾値を大きく上回っている
場合でも、残差の自己相関ピーク値が閾値をほんの少し
でも下回れば、Ｖ（有声音）と判断されることはなくな
ってしまう。

【０００６】また、特定の入力音声に固有のルールが必
要となってしまい、あらゆる入力音声に対応できる一般
性を持たせるためには多数のルールを用意しなくてはな
らず、複雑なものとなる。

【０００７】また、ＭＢＥ（Multiband Excitation: マ
ルチバンド励起）符号化等で用いられている、スペクト
ル類似度、すなわち各バンド毎のＶ／ＵＶ判定結果を用
いたＶ／ＵＶ判定条件は、ピッチ検出が正確に行われて
いることが大前提となるが、実際にはピッチ検出を間違
いなく高精度に行うことは非常に難しい。

【０００８】本発明は、このような実情に鑑みてなされ
たものであり、有声音／無声音（Ｖ／ＵＶ）の判定のた
めの各入力パラメータを総合的に判断し、単純なアルゴ
リズムで高精度なＶ／ＵＶ判定が行えるような有声音／
無声音判定方法及び装置、並びに音声符号化方法の提供
を目的とする。

【０００９】

【課題を解決するための手段】本発明に係る音声符号化
方法は、上述した課題を解決するために、入力音声信号
に関する有声音／無声音判定のためのパラメータｘを、ｇ(ｘ) ＝Ａ／（１＋ exp（−(ｘ−ｂ)/ａ））ただし、Ａ，ａ，ｂは定数で表されるシグモイド関数ｇ(ｘ)により変換し、このシ
グモイド関数ｇ(ｘ)により変換されたパラメータを用い
て有声音／無声音判定を行うことを特徴としている。

【００１０】ここで、上記シグモイド関数ｇ(ｘ)を複数
の直線により近似して得られる関数ｇ'(ｘ) により上記
パラメータｘを変換し、この変換されたパラメータを用
いて有声音／無声音判定を行うようにしてもよい。ま
た、上記有声音／無声音判定のためのパラメータとし
て、入力音声信号のフレーム平均エネルギ、正規化自己
相関ピーク値、スペクトル類似度、零交叉数、及びピッ
チ周期の少なくとも１つを用いることが好ましい。

【００１１】

【発明の実施の形態】以下、本発明に係る好ましい実施
の形態について説明する。先ず、図１は、本発明に係る
有声音／無声音（Ｖ／ＵＶ）判定方法の実施の形態を説
明するための図である。

【００１２】この図１において、各入力端子１１，１
２，１３，１４，１５には、有声音／無声音（Ｖ／Ｕ
Ｖ）判定のための入力パラメータとして、入力音声信号
のフレーム平均エネルギlev 、正規化自己相関ピーク値
r0r 、スペクトル類似度pos 、零交叉（ゼロクロス）数
nZero 、ピッチラグpch がそれぞれ供給されている。上
記フレーム平均エネルギlev については、端子１０から
の入力音声信号をフレーム平均ｒｍｓ（root mean squa
re）算出回路２１に供給することで得ることができる。
このフレーム平均エネルギlev は、１フレーム当たりの
平均ｒｍｓもしくはそれに準ずる量が用いられる。他の
入力パラメータについては、後述する。

【００１３】このようなＶ／ＵＶ判定のための入力パラ
メータを一般化して、ｎ個（ｎは自然数）の入力パラメ
ータをそれぞれｘ₁,ｘ₂,...,ｘ_n と表すとき、これらの
入力パラメータｘ_k （ただし、ｋ＝１，２，...，ｎ）
によるＶ（有声音）らしさをそれぞれ関数ｇ_k(ｘ_k)で表
し、最終的なＶ（有声音）らしさを、ｆ（x₁,x₂,...,x_n）＝Ｆ（g₁(x₁),g₂(x₂),...,g
_n(x_n)）として評価する。

【００１４】上記関数ｇ_k(ｘ_k)（ただし、ｋ＝１，
２，...，ｎ）としては、その値域が、ｃ_kからｄ_kまで
の値（ただし、ｃ_k,ｄ_k は、ｃ_k＜ｄ_kの定数）を取る任
意の関数を用いることが挙げられる。

【００１５】また、上記関数ｇ_k(ｘ_k)としては、その値
域がｃ_kからｄ_kまでの値を取り、傾きの異なる複数の直
線からなる関数を用いることが挙げられる。

【００１６】また、上記関数ｇ_k(ｘ_k)としては、その値
域がｃ_kからｄ_kまでの値を取り、連続である関数を用い
ることが挙げられる。

【００１７】また、上記関数ｇ_k(ｘ_k)としては、ｇ_k(ｘ_k) ＝Ａ_k／（１＋ exp（−(ｘ_k−ｂ_k)/ａ_k））ただし、ｋ＝１,２,...,ｎ、Ａ_k,ａ_k,ｂ_k は、入力パラメータｘ_k により異なる定数で表されるシグモイド関数もしくはその乗算による組み
合わせを用いることが挙げられる。

【００１８】ここで、上記シグモイド関数もしくはその
乗算による組み合わせによる関数を、傾きの異なる複数
の直線により近似することが挙げられる。

【００１９】入力パラメータとしては、上述した入力音
声信号のフレーム平均エネルギlev、正規化自己相関ピ
ーク値r0r 、スペクトル類似度pos 、零交叉（ゼロクロ
ス）数nZero 、ピッチラグpch 等が挙げられる。

【００２０】これらの入力パラメータlev ，r0r ，pos
，nZero ，pch についてのＶ（有声音）らしさを表す
関数をそれぞれpLev(lev) ，pR0r(r0r) ，pPos(pos) ，
pNZero(nZero) ，pPch(pch) とするとき、これらの関数
を用いた最終的なＶ（有声音）らしさを表す関数ｆ（le
v,r0r,pos,nZero,pch）を、ｆ（lev,r0r,pos,nZero,pch）＝（（αpR0r(r0r)＋βpL
ev(lev)）／（α＋β））×pPos(pos)×pNZero(nZero)
×pPch(pch) により計算することが挙げられる。ここで、α，βは、
pR0r，pLevをそれぞれ適当に重み付けするための定数で
ある。

【００２１】図１においては、各入力端子１１，１２，
１３，１４，１５からの入力パラメータとしての入力音
声信号のフレーム平均エネルギlev 、正規化自己相関ピ
ーク値r0r 、スペクトル類似度pos 、零交叉（ゼロクロ
ス）数nZero 、ピッチラグpch について、各パラメータ
のＶ（有声音）らしさを表す関数の計算部２３に送られ
て、関数計算回路３１により入力音声信号のフレーム平
均エネルギlev に基づくＶらしさを表す関数pLev(lev)
が計算され、関数計算回路３２により正規化自己相関ピ
ーク値r0r に基づくＶらしさを表す関数pR0r(r0r) が計
算され、関数計算回路３３によりスペクトル類似度pos
に基づくＶらしさを表す関数pPos(pos)が計算され、関
数計算回路３４により零交叉（ゼロクロス）数nZero に
基づくＶらしさを表す関数pNZero(nZero) が計算され、
関数計算回路３５によりピッチラグpch に基づくＶらし
さを表す関数pPch(pch) が計算される。これらの関数計
算回路３１〜３５での計算の具体例については後述する
が、上述したシグモイド関数を用いるのが好ましい。

【００２２】関数計算回路３１からの関数pLev(lev) の
出力値には定数βが乗算され、関数計算回路３２からの
関数pR0r(r0r) の出力値には定数αが乗算されて、これ
らが加算器２４で加算され、加算出力αpR0r(r0r)＋βp
Lev(lev)が乗算器２５に送られる。この乗算器２５に
は、各関数計算回路３３，３４，３５からの各関数pPos
(pos)，pNZero(nZero)，pPch(pch) がそれぞれ供給され
て、これらが乗算されることで、上記式の最終的な最終
的なＶ（有声音）らしさを表す関数ｆ（lev,r0r,pos,nZ
ero,pch）が求められる。これがＶ／ＵＶ（有声音／無
声音）判定回路２６に送られて、所定の閾値（スレッシ
ョルド）で弁別されることで、Ｖ／ＵＶの判定が行わ
れ、判定出力は端子２７より取り出される。

【００２３】次に、図２は、上述したような有声音／無
声音（Ｖ／ＵＶ）判定方法が用いられる本発明に係る音
声符号化方法の実施の形態が適用された音声信号符号化
装置の基本構成を示している。

【００２４】この図２に示す音声信号符号化装置の基本
的な考え方は、入力音声信号の短期予測残差例えばＬＰ
Ｃ（線形予測符号化）残差を求めてサイン波分析（sinu
soidal analysis ）符号化、例えばハーモニックコーデ
ィング（harmonic coding ）を行う第１の符号化部１１
０と、入力音声信号に対して位相伝送を行う波形符号化
により符号化する第２の符号化部１２０とを有し、入力
信号の有声音（Ｖ：Voiced）の部分の符号化に第１の符
号化部１１０を用い、入力信号の無声音（ＵＶ：Unvoic
ed）の部分の符号化には第２の符号化部１２０を用いる
ようにすることである。この装置のＶ／ＵＶ（有声音／
無声音）判定に、上述した本発明の実施の形態のＶ／Ｕ
Ｖ判定方法や装置が用いられる。

【００２５】上記第１の符号化部１１０には、例えばＬ
ＰＣ残差をハーモニック符号化やマルチバンド励起（Ｍ
ＢＥ）符号化のようなサイン波分析符号化を行う構成が
用いられる。上記第２の符号化部１２０には、例えば合
成による分析法を用いて最適ベクトルのクローズドルー
プサーチによるベクトル量子化を用いた符号励起線形予
測（ＣＥＬＰ）符号化の構成が用いられる。

【００２６】図２の例では、入力端子１０１に供給され
た音声信号が、第１の符号化部１１０のＬＰＣ逆フィル
タ１１１及びＬＰＣ分析・量子化部１１３に送られてい
る。ＬＰＣ分析・量子化部１１３から得られたＬＰＣ係
数あるいはいわゆるαパラメータは、ＬＰＣ逆フィルタ
１１１に送られて、このＬＰＣ逆フィルタ１１１により
入力音声信号の線形予測残差（ＬＰＣ残差）が取り出さ
れる。また、ＬＰＣ分析・量子化部１１３からは、後述
するようにＬＳＰ（線スペクトル対）の量子化出力が取
り出され、これが出力端子１０２に送られる。ＬＰＣ逆
フィルタ１１１からのＬＰＣ残差は、サイン波分析符号
化部１１４に送られる。サイン波分析符号化部１１４で
は、ピッチ検出やスペクトルエンベロープ振幅計算が行
われると共に、Ｖ（有声音）／ＵＶ（無声音）判定部１
１５によりＶ／ＵＶの判定が行われる。このＶ／ＵＶ判
定部１１５に、上述した図１に示すようなＶ／ＵＶ判定
装置が用いられるわけである。

【００２７】サイン波分析符号化部１１４からのスペク
トルエンベロープ振幅データがベクトル量子化部１１６
に送られる。スペクトルエンベロープのベクトル量子化
出力としてのベクトル量子化部１１６からのコードブッ
クインデクスは、スイッチ１１７を介して出力端子１０
３に送られ、サイン波分析符号化部１１４からの出力
は、スイッチ１１８を介して出力端子１０４に送られ
る。また、Ｖ／ＵＶ判定部１１５からのＶ／ＵＶ判定出
力は、出力端子１０５に送られると共に、スイッチ１１
７、１１８の制御信号として送られており、上述した有
声音（Ｖ）のとき上記インデクス及びピッチが選択され
て各出力端子１０３及び１０４からそれぞれ取り出され
る。

【００２８】図２の第２の符号化部１２０は、この例で
はＣＥＬＰ（符号励起線形予測）符号化構成を有してお
り、雑音符号帳１２１からの出力を、重み付きの合成フ
ィルタ１２２により合成処理し、得られた重み付き音声
を減算器１２３に送り、入力端子１０１に供給された音
声信号を聴覚重み付けフィルタ１２５を介して得られた
音声との誤差を取り出し、この誤差を距離計算回路１２
４に送って距離計算を行い、誤差が最小となるようなベ
クトルを雑音符号帳１２１でサーチするような、合成に
よる分析（Analysis by Synthesis ）によるクローズド
ループサーチを用いた時間軸波形のベクトル量子化を行
っている。このＣＥＬＰ符号化は、上述したように無声
音部分の符号化に用いられており、雑音符号帳１２１か
らのＵＶデータとしてのコードブックインデクスは、上
記Ｖ／ＵＶ判定部１１５からのＶ／ＵＶ判定結果が無声
音（ＵＶ）のときオンとなるスイッチ１２７を介して、
出力端子１０７より取り出される。

【００２９】次に、図３は、上記図２の音声信号符号化
装置に対応する音声信号復号化装置の基本構成を示すブ
ロック図である。

【００３０】この図３において、入力端子２０２には上
記図２の出力端子１０２からの上記ＬＳＰ（線スペクト
ル対）の量子化出力としてのコードブックインデクスが
入力される。入力端子２０３、２０４、及び２０５に
は、上記図２の各出力端子１０３、１０４、及び１０５
からの各出力、すなわちエンベロープ量子化出力として
のインデクス、ピッチ、及びＶ／ＵＶ判定出力がそれぞ
れ入力される。また、入力端子２０７には、上記図２の
出力端子１０７からのＵＶ（無声音）用のデータとして
のインデクスが入力される。

【００３１】入力端子２０３からのエンベロープ量子化
出力としてのインデクスは、逆ベクトル量子化器２１２
に送られて逆ベクトル量子化され、ＬＰＣ残差のスペク
トルエンベロープが求められて有声音合成部２１１に送
られる。有声音合成部２１１は、サイン波合成により有
声音部分のＬＰＣ（線形予測符号化）残差を合成するも
のであり、この有声音合成部２１１には入力端子２０４
及び２０５からのピッチ及びＶ／ＵＶ判定出力も供給さ
れている。有声音合成部２１１からの有声音のＬＰＣ残
差は、ＬＰＣ合成フィルタ２１４に送られる。また、入
力端子２０７からのＵＶデータのインデクスは、無声音
合成部２２０に送られて、雑音符号帳を参照することに
より無声音部分のＬＰＣ残差が取り出される。このＬＰ
Ｃ残差もＬＰＣ合成フィルタ２１４に送られる。ＬＰＣ
合成フィルタ２１４では、上記有声音部分のＬＰＣ残差
と無声音部分のＬＰＣ残差とがそれぞれ独立に、ＬＰＣ
合成処理が施される。あるいは、有声音部分のＬＰＣ残
差と無声音部分のＬＰＣ残差とが加算されたものに対し
てＬＰＣ合成処理を施すようにしてもよい。ここで入力
端子２０２からのＬＳＰのインデクスは、ＬＰＣパラメ
ータ再生部２１３に送られて、ＬＰＣのαパラメータが
取り出され、これがＬＰＣ合成フィルタ２１４に送られ
る。ＬＰＣ合成フィルタ２１４によりＬＰＣ合成されて
得られた音声信号は、出力端子２０１より取り出され
る。

【００３２】次に、上記図２に示した音声信号符号化装
置のより具体的な構成について、図４を参照しながら説
明する。なお、図４において、上記図２の各部と対応す
る部分には同じ指示符号を付している。

【００３３】この図４に示された音声信号符号化装置に
おいて、入力端子１０１に供給された音声信号は、ハイ
パスフィルタ（ＨＰＦ）１０９にて不要な帯域の信号を
除去するフィルタ処理が施された後、ＬＰＣ（線形予測
符号化）分析・量子化部１１３のＬＰＣ分析回路１３２
と、ＬＰＣ逆フィルタ回路１１１とに送られる。

【００３４】ＬＰＣ分析・量子化部１１３のＬＰＣ分析
回路１３２は、入力信号波形の２５６サンプル程度の長
さを１ブロックとしてハミング窓をかけて、自己相関法
により線形予測係数、いわゆるαパラメータを求める。
データ出力の単位となるフレーミングの間隔は、１６０
サンプル程度とする。サンプリング周波数ｆｓが例えば
８ｋHzのとき、１フレーム間隔は１６０サンプルで２０
ｍsec となる。

【００３５】ＬＰＣ分析回路１３２からのαパラメータ
は、α→ＬＳＰ変換回路１３３に送られて、線スペクト
ル対（ＬＳＰ）パラメータに変換される。これは、直接
型のフィルタ係数として求まったαパラメータを、例え
ば１０個、すなわち５対のＬＳＰパラメータに変換す
る。変換は例えばニュートン−ラプソン法等を用いて行
う。このＬＳＰパラメータに変換するのは、αパラメー
タよりも補間特性に優れているからである。

【００３６】α→ＬＳＰ変換回路１３３からのＬＳＰパ
ラメータは、ＬＳＰ量子化器１３４によりマトリクスあ
るいはベクトル量子化される。このとき、フレーム間差
分をとってからベクトル量子化してもよく、複数フレー
ム分をまとめてマトリクス量子化してもよい。ここで
は、２０ｍsec を１フレームとし、２０ｍsec 毎に算出
されるＬＳＰパラメータを２フレーム分まとめて、マト
リクス量子化及びベクトル量子化している。

【００３７】このＬＳＰ量子化器１３４からの量子化出
力、すなわちＬＳＰ量子化のインデクスは、端子１０２
を介して取り出され、また量子化済みのＬＳＰベクトル
は、ＬＳＰ補間回路１３６に送られる。

【００３８】ＬＳＰ補間回路１３６は、上記２０ｍsec
あるいは４０ｍsec 毎に量子化されたＬＳＰのベクトル
を補間し、８倍のレートにする。すなわち、２．５ｍse
c 毎にＬＳＰベクトルが更新されるようにする。これ
は、残差波形をハーモニック符号化復号化方法により分
析合成すると、その合成波形のエンベロープは非常にな
だらかでスムーズな波形になるため、ＬＰＣ係数が２０
ｍsec 毎に急激に変化すると異音を発生することがある
からである。すなわち、２．５ｍsec 毎にＬＰＣ係数が
徐々に変化してゆくようにすれば、このような異音の発
生を防ぐことができる。

【００３９】このような補間が行われた２．５ｍsec 毎
のＬＳＰベクトルを用いて入力音声の逆フィルタリング
を実行するために、ＬＳＰ→α変換回路１３７により、
ＬＳＰパラメータを例えば１０次程度の直接型フィルタ
の係数であるαパラメータに変換する。このＬＳＰ→α
変換回路１３７からの出力は、上記ＬＰＣ逆フィルタ回
路１１１に送られ、このＬＰＣ逆フィルタ１１１では、
２．５ｍsec 毎に更新されるαパラメータにより逆フィ
ルタリング処理を行って、滑らかな出力を得るようにし
ている。このＬＰＣ逆フィルタ１１１からの出力は、サ
イン波分析符号化部１１４、具体的には例えばハーモニ
ック符号化回路、の直交変換回路１４５、例えばＤＦＴ
（離散フーリエ変換）回路に送られる。

【００４０】ＬＰＣ分析・量子化部１１３のＬＰＣ分析
回路１３２からのαパラメータは、聴覚重み付けフィル
タ算出回路１３９に送られて聴覚重み付けのためのデー
タが求められ、この重み付けデータが後述する聴覚重み
付きのベクトル量子化器１１６と、第２の符号化部１２
０の聴覚重み付けフィルタ１２５及び聴覚重み付きの合
成フィルタ１２２とに送られる。

【００４１】ハーモニック符号化回路等のサイン波分析
符号化部１１４では、ＬＰＣ逆フィルタ１１１からの出
力を、ハーモニック符号化の方法で分析する。すなわ
ち、ピッチ検出、各ハーモニクスの振幅Ａｍの算出、有
声音（Ｖ）／無声音（ＵＶ）の判定を行い、ピッチによ
って変化するハーモニクスのエンベロープあるいは振幅
Ａｍの個数を次元変換して一定数にしている。

【００４２】図４に示すサイン波分析符号化部１１４の
具体例においては、一般のハーモニック符号化を想定し
ているが、特に、ＭＢＥ（Multiband Excitation: マル
チバンド励起）符号化の場合には、同時刻（同じブロッ
クあるいはフレーム内）の周波数軸領域いわゆるバンド
毎に有声音（Voiced）部分と無声音（Unvoiced）部分と
が存在するという仮定でモデル化することになる。それ
以外のハーモニック符号化では、１ブロックあるいはフ
レーム内の音声が有声音か無声音かの択一的な判定がな
されることになる。なお、以下の説明中のフレーム毎の
Ｖ／ＵＶとは、ＭＢＥ符号化に適用した場合には全バン
ドがＵＶのときを当該フレームのＵＶとしている。

【００４３】図４のサイン波分析符号化部１１４のオー
プンループピッチサーチ部１４１には、上記入力端子１
０１からの入力音声信号が、またゼロクロスカウンタ１
４２には、上記ＨＰＦ（ハイパスフィルタ）１０９から
の信号がそれぞれ供給されている。サイン波分析符号化
部１１４の直交変換回路１４５には、ＬＰＣ逆フィルタ
１１１からのＬＰＣ残差あるいは線形予測残差が供給さ
れている。オープンループピッチサーチ部１４１では、
入力信号のＬＰＣ残差をとってオープンループによる比
較的ラフなピッチのサーチが行われ、抽出された粗ピッ
チデータは高精度ピッチサーチ１４６に送られて、後述
するようなクローズドループによる高精度のピッチサー
チ（ピッチのファインサーチ）が行われる。また、オー
プンループピッチサーチ部１４１からは、上記粗ピッチ
データと共にＬＰＣ残差の自己相関の最大値をパワーで
正規化した正規化自己相関最大値ｒ(p) が取り出され、
Ｖ／ＵＶ（有声音／無声音）判定部１１５に送られてい
る。

【００４４】直交変換回路１４５では例えばＤＦＴ（離
散フーリエ変換）等の直交変換処理が施されて、時間軸
上のＬＰＣ残差が周波数軸上のスペクトル振幅データに
変換される。この直交変換回路１４５からの出力は、高
精度ピッチサーチ部１４６及びスペクトル振幅あるいは
エンベロープを評価するためのスペクトル評価部１４８
に送られる。

【００４５】高精度（ファイン）ピッチサーチ部１４６
には、オープンループピッチサーチ部１４１で抽出され
た比較的ラフな粗ピッチデータと、直交変換部１４５に
より例えばＤＦＴされた周波数軸上のデータとが供給さ
れている。この高精度ピッチサーチ部１４６では、上記
粗ピッチデータ値を中心に、0.２〜0.５きざみで±数サ
ンプルずつ振って、最適な小数点付き（フローティン
グ）のファインピッチデータの値へ追い込む。このとき
のファインサーチの手法として、いわゆる合成による分
析 (Analysis by Synthesis)法を用い、合成されたパワ
ースペクトルが原音のパワースペクトルに最も近くなる
ようにピッチを選んでいる。このようなクローズドルー
プによる高精度のピッチサーチ部１４６からのピッチデ
ータについては、スイッチ１１８を介して出力端子１０
４に送っている。

【００４６】スペクトル評価部１４８では、ＬＰＣ残差
の直交変換出力としてのスペクトル振幅及びピッチに基
づいて各ハーモニクスの大きさ及びその集合であるスペ
クトルエンベロープが評価され、高精度ピッチサーチ部
１４６、Ｖ／ＵＶ（有声音／無声音）判定部１１５及び
聴覚重み付きのベクトル量子化器１１６に送られる。

【００４７】Ｖ／ＵＶ（有声音／無声音）判定部１１５
は、直交変換回路１４５からの出力と、高精度ピッチサ
ーチ部１４６からの最適ピッチと、スペクトル評価部１
４８からのスペクトル振幅データと、オープンループピ
ッチサーチ部１４１からの正規化自己相関最大値ｒ(p)
と、ゼロクロスカウンタ４１２からのゼロクロスカウン
ト値とに基づいて、当該フレームのＶ／ＵＶ判定が行わ
れる。さらに、ＭＢＥの場合の各バンド毎のＶ／ＵＶ判
定結果の境界位置も当該フレームのＶ／ＵＶ判定の一条
件としてもよい。このＶ／ＵＶ判定部１１５からの判定
出力は、出力端子１０５を介して取り出される。

【００４８】ところで、スペクトル評価部１４８の出力
部あるいはベクトル量子化器１１６の入力部には、デー
タ数変換（一種のサンプリングレート変換）部が設けら
れている。このデータ数変換部は、上記ピッチに応じて
周波数軸上での分割帯域数が異なり、データ数が異なる
ことを考慮して、エンベロープの振幅データ｜Ａ_m｜を
一定の個数にするためのものである。すなわち、例えば
有効帯域を３４００ｋHzまでとすると、この有効帯域が
上記ピッチに応じて、８バンド〜６３バンドに分割され
ることになり、これらの各バンド毎に得られる上記振幅
データ｜Ａ_m｜の個数ｍ_MX＋１も８〜６３と変化するこ
とになる。このためデータ数変換部１１９では、この可
変個数ｍ_MX＋１の振幅データを一定個数Ｍ個、例えば４
４個、のデータに変換している。

【００４９】このスペクトル評価部１４８の出力部ある
いはベクトル量子化器１１６の入力部に設けられたデー
タ数変換部からの上記一定個数Ｍ個（例えば４４個）の
振幅データあるいはエンベロープデータが、ベクトル量
子化器１１６により、所定個数、例えば４４個のデータ
毎にまとめられてベクトルとされ、重み付きベクトル量
子化が施される。この重みは、聴覚重み付けフィルタ算
出回路１３９からの出力により与えられる。ベクトル量
子化器１１６からの上記エンベロープのインデクスは、
スイッチ１１７を介して出力端子１０３より取り出され
る。なお、上記重み付きベクトル量子化に先だって、所
定個数のデータから成るベクトルについて適当なリーク
係数を用いたフレーム間差分をとっておくようにしても
よい。

【００５０】次に、第２の符号化部１２０について説明
する。第２の符号化部１２０は、いわゆるＣＥＬＰ（符
号励起線形予測）符号化構成を有しており、特に、入力
音声信号の無声音部分の符号化のために用いられてい
る。この無声音部分用のＣＥＬＰ符号化構成において、
雑音符号帳、いわゆるストキャスティック・コードブッ
ク（stochastic code book）１２１からの代表値出力で
ある無声音のＬＰＣ残差に相当するノイズ出力を、ゲイ
ン回路１２６を介して、聴覚重み付きの合成フィルタ１
２２に送っている。重み付きの合成フィルタ１２２で
は、入力されたノイズをＬＰＣ合成処理し、得られた重
み付き無声音の信号を減算器１２３に送っている。減算
器１２３には、上記入力端子１０１からＨＰＦ（ハイパ
スフィルタ）１０９を介して供給された音声信号を聴覚
重み付けフィルタ１２５で聴覚重み付けした信号が入力
されており、合成フィルタ１２２からの信号との差分あ
るいは誤差を取り出している。この誤差を距離計算回路
１２４に送って距離計算を行い、誤差が最小となるよう
な代表値ベクトルを雑音符号帳１２１でサーチする。こ
のような合成による分析（Analysis by Synthesis ）法
を用いたクローズドループサーチを用いた時間軸波形の
ベクトル量子化を行っている。

【００５１】このＣＥＬＰ符号化構成を用いた第２の符
号化部１２０からのＵＶ（無声音）部分用のデータとし
ては、雑音符号帳１２１からのコードブックのシェイプ
インデクスと、ゲイン回路１２６からのコードブックの
ゲインインデクスとが取り出される。雑音符号帳１２１
からのＵＶデータであるシェイプインデクスは、スイッ
チ１２７ｓを介して出力端子１０７ｓに送られ、ゲイン
回路１２６のＵＶデータであるゲインインデクスは、ス
イッチ１２７ｇを介して出力端子１０７ｇに送られてい
る。

【００５２】ここで、これらのスイッチ１２７ｓ、１２
７ｇ及び上記スイッチ１１７、１１８は、上記Ｖ／ＵＶ
判定部１１５からのＶ／ＵＶ判定結果によりオン／オフ
制御され、スイッチ１１７、１１８は、現在伝送しよう
とするフレームの音声信号のＶ／ＵＶ判定結果が有声音
（Ｖ）のときオンとなり、スイッチ１２７ｓ、１２７ｇ
は、現在伝送しようとするフレームの音声信号が無声音
（ＵＶ）のときオンとなる。

【００５３】次に、図４の音声信号符号化装置におい
て、Ｖ／ＵＶ（有声音／無声音）判定部１１５の具体例
について説明する。

【００５４】このＶ／ＵＶ判定部１１５は、前述した図
１のＶ／ＵＶ判定装置を基本構成とするものであり、前
記入力音声信号のフレーム平均エネルギlev 、正規化自
己相関ピーク値r0r 、スペクトル類似度pos 、零交叉
（ゼロクロス）数nZero 、ピッチラグpch に基づいて、
当該フレームのＶ／ＵＶ判定が行われる。

【００５５】すなわち、直交変換回路１４５からの出力
に基づいて入力音声信号のフレーム平均エネルギ、すな
わちフレーム平均ｒｍｓもしくはそれに準ずる量lev が
求められて、図１の入力端子１１に供給され、オープン
ループピッチサーチ部１４１からの正規化自己相関ピー
ク値r0r が図１の入力端子１２に供給され、ゼロクロス
カウンタ４１２からのゼロクロスカウント値（零交叉
数）nZero が図１の入力端子１４に供給され、高精度ピ
ッチサーチ部１４６からの最適ピッチとして、ピッチ周
期をサンプル数で表したピッチラグpch が図１の入力端
子１５に供給される。また、ＭＢＥの場合と同様な各バ
ンド毎のＶ／ＵＶ判別結果の境界位置も当該フレームの
Ｖ／ＵＶ判定の一条件としており、これがスペクトル類
似度pos として図１の入力端子１３に供給される。

【００５６】このＭＢＥの場合の各バンド毎のＶ／ＵＶ
判別結果を用いたＶ／ＵＶ判定パラメータであるスペク
トル類似度pos について以下に説明する。

【００５７】ＭＢＥの場合の第ｍ番目のハーモニックス
の大きさを表すパラメータあるいは振幅｜Ａ_m｜は、

【００５８】

【数１】

【００５９】により表せる。この式において、｜Ｓ(j)
｜は、ＬＰＣ残差をＤＦＴしたスペクトルであり、｜
Ｅ(j)｜は、基底信号のスペクトル、具体的には２５６
ポイントのハミング窓をＤＦＴしたものである。また、
各バンド毎のＶ／ＵＶ判定のために、ＮＳＲ（ノイズto
シグナル比）を利用する。この第ｍバンドのＮＳＲは、

【００６０】

【数２】

【００６１】と表せ、このＮＳＲ値が所定の閾値（例え
ば0.3 ）より大のとき（エラーが大きい）ときには、そ
のバンドでの｜Ａ_m ｜｜Ｅ(j) ｜による｜Ｓ(j) ｜の近
似が良くない（上記励起信号｜Ｅ(j) ｜が基底として不
適当である）と判断でき、当該バンドをＵＶ（Unvoice
d、無声音）と判別する。これ以外のときは、近似があ
る程度良好に行われていると判断でき、そのバンドをＶ
（Voiced、有声音）と判別する。

【００６２】ところで、上述したように基本ピッチ周波
数で分割されたバンドの数（ハーモニックスの数）は、
声の高低（ピッチの大小）によって約８〜６３程度の範
囲で変動するため、各バンド毎のＶ／ＵＶフラグの個数
も同様に変動してしまう。そこで、固定的な周波数帯域
で分割した一定個数のバンド毎にＶ／ＵＶ判別結果をま
とめる（あるいは縮退させる）ようにしている。具体的
には、音声帯域を含む所定帯域を例えば１２個のバンド
に分割し、当該バンドのＶ／ＵＶを判断している。この
場合のバンド毎のＶ／ＵＶ判別データについては、全バ
ンド中で１箇所以下の有声音（Ｖ）領域と無声音（Ｕ
Ｖ）領域との区分位置あるいは境界位置を表すデータ
を、上記スペクトル類似度pos として用いている。この
場合、スペクトル類似度pos の取り得る値は、１≦pos
≦１２となる。

【００６３】図１の各入力端子１１〜１５にそれぞれ供
給された上記各入力パラメータは、それぞれ関数計算回
路３１〜２５に送られて、Ｖ（有声音）らしさを表す関
数値の計算が行われる。このときの関数の具体例につい
て説明する。

【００６４】先ず、図１の関数計算回路３１では、入力
音声信号のフレーム平均エネルギlev の値に基づいて、
関数pLev(lev) の値が計算される。この関数pLev(lev)
としては、例えば、 pLev(lev) ＝ 1.0／（1.0＋exp(-(lev-400.0)/100.0)）が用いられる。この関数pLev(lev) のグラフを図５に示
す。

【００６５】次に、図１の関数計算回路３２では、正規
化自己相関ピーク値r0r の値（０≦r0r≦1.0）に基づい
て、関数pR0r(r0r) の値が計算される。この関数pR0r(r
0r)としては、例えば、 pR0r(r0r) ＝ 1.0／（1.0＋exp(-(r0r-0.3)/0.06)）が用いられる。この関数pR0r(r0r) のグラフを図６に示
す。

【００６６】図１の関数計算回路３３では、スペクトル
類似度pos の値（１≦pos≦１２）に基づいて、関数pPo
s(pos) の値が計算される。この関数pPos(pos) として
は、例えば、 pPos(pos) ＝ 1.0／（1.0＋exp(-(pos-1.5)/0.8)）が用いられる。この関数pPos(pos) のグラフを図７に示
す。

【００６７】図１の関数計算回路３４では、零交叉数nZ
ero の値（１≦nZero≦１６０）に基づいて、関数pNZe
ro(nZero) の値が計算される。この関数pNZero(nZero)
としては、例えば、 pNZero(nZero) ＝ 1.0／（1.0＋exp((nZero-70.0)/12.
0)）が用いられる。この関数pNZero(nZero) のグラフを図８
に示す。

【００６８】さらに、図１の関数計算回路３５では、ピ
ッチラグpch の値（20≦pch≦147）に基づいて、関数pP
ch(pch) の値が計算される。この関数pPch(pch) として
は、例えば、 pPch(pch) ＝ 1.0／（1.0＋exp(-(pch-12.0)/2.5)）×
1.0／（1.0＋exp((pch-105.0)/6.0)）が用いられる。この関数pPch(pch) のグラフを図９に示
す。

【００６９】これらの関数pLev(lev) ，pR0r(r0r) ，pP
os(pos) ，pNZero(nZero) ，pPch(pch) により算出され
た各パラメータlev ，r0r ，pos ，nZero ，pch につい
てのＶ（有声音）らしさを用いて、最終的なＶらしさを
算出するわけであるが、このとき、次の２点を考慮する
ことが好ましい。

【００７０】すなわち、第１点として、例えば、自己相
関ピーク値が比較的小さくても、フレーム平均エネルギ
が非常に大きいような場合は、Ｖ（有声音）とすべきで
ある。このように、相補的な関係が強いパラメータ同士
では、重み付け和をとることにする。第２点として、独
立してＶらしさを表しているパラメータについては、乗
算を行う。

【００７１】よって、相補的な関係にある自己相関ピー
ク値とフレーム平均エネルギについては重み付け和をと
り、その他については乗算を行うことにし、最終的なＶ
らしさを表す関数ｆ（lev,r0r,pos,nZero,pch）を、ｆ（lev,r0r,pos,nZero,pch）＝（（1.2pR0r(r0r)＋0.8
pLev(lev)）／2.0）×pPos(pos)×pNZero(nZero)×pPch
(pch) により計算する。ここで、重み付けパラメータ（α＝1.
2 ，β＝0.8）は経験的に得られたものである。

【００７２】Ｖ／ＵＶ（有声音／無声音）判定は、最終
的にｆが０．５以上であればＶ（有声音）とし、ｆが
０．５より小さければＵＶ（無声音）とする。

【００７３】なお、本発明は上記実施の形態のみに限定
されるものではなく、例えば上記正規化自己相関ピーク
値r0r についての有声音らしさを求める上記関数pR0r(r
0r)の代わりに、これを適当な直線により近似した関数p
R0r'(r0r)として、 pR0r'(r0r) ＝ 0.6x ０≦ｘ＜ 7/34 pR0r'(r0r) ＝ 4.0（x - 0.175） 7/34 ≦ｘ＜ 67/170 pR0r'(r0r) ＝ 0.6x + 0.64 67/170 ≦ｘ＜ 0.6 pR0r'(r0r) ＝１ 0.6 ≦ｘ≦ 1.0 を用いることも可能である。この近似関数pR0r'(r0r)の
グラフを図１０の実線に示す。この図１０の破線は、各
近似直線及び元の関数pR0r(r0r) を示すものである。

【００７４】また、上記図２、図４の音声分析側（エン
コード側）の構成については、各部をハードウェア的に
記載しているが、いわゆるＤＳＰ（ディジタル信号プロ
セッサ）等を用いてソフトウェアプログラムにより実現
することも可能である。また、本発明の有声音／無声音
判定が適用される音声符号化方法としては、一般に、Ｌ
ＰＣ（線形予測符号化）残差信号をＶとＵＶとに分け
て、Ｖ側では残差のハーモニックコーディングまたは正
弦波分析（sinusoidal analysis）符号化を行う音声圧
縮符号化を用いることができ、ＵＶ側では、いわゆるＣ
ＥＬＰ（符号励起線形予測）符号化や、雑音の色付けに
よる合成等を用いた符号化等の種々の符号化を行わせる
ことができる。また、Ｖ側では上記ＬＰＣ残差の符号化
を行い、スペクトルエンベロープに対して可変次元重み
付きＶＱ（ベクトル量子化）を行う音声圧縮符号化方式
に本発明を適用してもよい。さらに、本発明の適用範囲
は、伝送や記録再生に限定されず、ピッチ変換やスピー
ド変換、規則音声合成、あるいは雑音抑圧のような種々
の用途に応用できることは勿論である。

【００７５】

【発明の効果】以上の説明から明らかなように、本発明
によれば、入力音声信号に関する有声音／無声音判定の
ためのパラメータｘを、ｇ(ｘ) ＝Ａ／（１＋ exp（−(ｘ−ｂ)/ａ））ただし、Ａ，ａ，ｂは定数で表されるシグモイド関数ｇ(ｘ)により変換し、このシ
グモイド関数ｇ(ｘ)により変換されたパラメータを用い
て有声音／無声音判定を行っているため、有声音／無声
音（Ｖ／ＵＶ）の判定のための各入力パラメータを総合
的に判断でき、単純なアルゴリズムで高精度なＶ／ＵＶ
判定が行える。

【００７６】また、上記シグモイド関数ｇ(ｘ)の代わり
に、シグモイド関数ｇ(ｘ)を複数の直線により近似して
得られる関数ｇ'(ｘ) により上記パラメータｘを変換
し、この変換されたパラメータを用いて有声音／無声音
判定を行うことにより、関数テーブル等を用いることな
く、また簡単な演算でパラメータ変換が行え、装置の低
価格化や高速化が図れる。

【図面の簡単な説明】

【図１】本発明に係る音声符号化方法の実施の形態が適
用される音声信号符号化装置の基本構成を示すブロック
図である。

【図２】本発明に係る音声符号化方法の実施の形態が適
用される音声信号符号化装置の基本構成を示すブロック
図である。

【図３】図２の音声信号符号化装置に対応する音声信号
復号化装置の基本構成を示すブロック図である。

【図４】本発明の実施の形態となる音声符号化方法が適
用される音声信号符号化装置のより具体的な構成を示す
ブロック図である。

【図５】入力音声信号のフレーム平均エネルギlev に対
するＶ（有声音）らしさを表す関数pLev(lev) のグラフ
の一例を示す図である。

【図６】正規化自己相関ピーク値r0r に対する有声音ら
しさを表す関数pR0r(r0r) のグラフの一例を示す図であ
る。

【図７】スペクトル類似度pos に対する有声音らしさを
表す関数pPos(pos) のグラフの一例を示す図である。

【図８】零交叉数nZero に対する有声音らしさを表す関
数pNZero(nZero) のグラフの一例を示す図である。

【図９】ピッチラグpch に対する有声音らしさを表す関
数pPch(pch) のグラフの一例を示す図である。

【図１０】正規化自己相関ピーク値r0r に対する有声音
らしさを複数の直線で近似して表す関数pR0r'(r0r)のグ
ラフの一例を示す図である。

【符号の説明】

１１入力音声信号のフレーム平均エネルギlev の入力
端子、１２正規化自己相関ピーク値r0r の入力端
子、１３スペクトル類似度pos の入力端子、１４零
交叉数nZero の入力端子、１５ピッチラグpch の入
力端子、３１，３２，３３，３４，３５関数計算回
路、１１０第１の符号化部、１１１ＬＰＣ逆フ
ィルタ、１１３ＬＰＣ分析・量子化部、１１４
サイン波分析符号化部、１１５Ｖ／ＵＶ判定部、
１２０第２の符号化部、１２１雑音符号帳、１
２２重み付き合成フィルタ、１２３減算器、１
２４距離計算回路、１２５聴覚重み付けフィルタ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ１０Ｌ 9/18 Ｇ１０Ｌ 9/18 Ａ // Ｈ０３Ｍ 7/30 9382−5ＫＨ０３Ｍ 7/30 Ｂ (72)発明者大森士郎東京都品川区北品川６丁目７番35号ソニー株式会社内

Claims

【特許請求の範囲】

【請求項１】入力音声信号が有声音か無声音かを判定
する有声音／無声音判定方法において、入力音声信号に関する有声音／無声音判定のためのパラ
メータｘを、ｇ(ｘ) ＝Ａ／（１＋ exp（−(ｘ−ｂ)/ａ））ただし、Ａ，ａ，ｂは定数で表されるシグモイド関数ｇ(ｘ)により変換し、このシ
グモイド関数ｇ(ｘ)により変換されたパラメータを用い
て有声音／無声音判定を行うことを特徴とする有声音／
無声音判定方法。
【請求項２】上記シグモイド関数ｇ(ｘ)を複数の直線
により近似して得られる関数ｇ'(ｘ) により上記パラメ
ータｘを変換し、この変換されたパラメータを用いて有
声音／無声音判定を行うことを特徴とする請求項１記載
の有声音／無声音判定方法。
【請求項３】上記有声音／無声音判定のためのパラメ
ータとして、入力音声信号のフレーム平均エネルギ、正
規化自己相関ピーク値、スペクトル類似度、零交叉数、
及びピッチ周期の少なくとも１つを用いることを特徴と
する請求項１記載の有声音／無声音判定方法。
【請求項４】上記有声音／無声音判定のためのパラメ
ータとして、入力音声信号のフレーム平均エネルギlev
、正規化自己相関ピーク値r0r 、スペクトル類似度pos
、零交叉数nZero 、ピッチラグpch を用い、これらの
パラメータに基づく有声音らしさを表す関数をそれぞれ
pLev(lev) ，pR0r(r0r) ，pPos(pos) ，pNZero(nZero)
，pPch(pch) とするとき、これらの関数を用いた最終
的な有声音らしさを表す関数ｆ（lev,r0r,pos,nZero,pc
h）を、ｆ（lev,r0r,pos,nZero,pch）＝（（αpR0r(r0r)＋βpL
ev(lev)）／（α＋β））×pPos(pos)×pNZero(nZero)
×pPch(pch) により計算することを特徴とする請求項１記載の有声音
／無声音判定方法。
【請求項５】入力音声信号が有声音か無声音かを判定
する有声音／無声音判定装置において、入力音声信号に関する有声音／無声音判定のためのパラ
メータｘを、ｇ(ｘ) ＝Ａ／（１＋ exp（−(ｘ−ｂ)/ａ））ただし、Ａ，ａ，ｂは定数で表されるシグモイド関数ｇ(ｘ)により変換して関数出
力値を得る関数計算手段と、この関数計算手段により上記シグモイド関数ｇ(ｘ)に基
づいて得られた値を用いて有声音／無声音判定を行う手
段とを有することを特徴とする有声音／無声音判定装
置。
【請求項６】入力音声信号を時間軸上でフレーム単位
で区分して各フレーム単位で符号化を行う音声符号化方
法において、入力音声信号に関する有声音／無声音判定のためのパラ
メータｘを、ｇ(ｘ) ＝Ａ／（１＋ exp（−(ｘ−ｂ)/ａ））ただし、Ａ，ａ，ｂは定数で表されるシグモイド関数ｇ(ｘ)により変換し、このシ
グモイド関数ｇ(ｘ)により変換されたパラメータを用い
て有声音／無声音判定を行い、この有声音／無声音判定
結果に基づいて、有声音とされた部分ではサイン波分析
符号化を行うことを特徴とする音声符号化方法。
【請求項７】上記シグモイド関数ｇ(ｘ)を複数の直線
により近似して得られる関数ｇ'(ｘ) により上記パラメ
ータｘを変換し、この変換されたパラメータを用いて有
声音／無声音判定を行うことを特徴とする請求項６記載
の音声符号化方法。
【請求項８】上記有声音／無声音判定結果に基づい
て、無声音とされた部分では合成による分析法を用いて
最適ベクトルのクローズドループサーチによる時間軸波
形のベクトル量子化を行うことを特徴とする請求項６記
載の音声符号化方法。