JPH10105194A

JPH10105194A - ピッチ検出方法、音声信号符号化方法および装置

Info

Publication number: JPH10105194A
Application number: JP8257128A
Authority: JP
Inventors: Kazuyuki Iijima; 和幸飯島; Masayuki Nishiguchi; 正之西口; Atsushi Matsumoto; 淳松本
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1996-09-27
Filing date: 1996-09-27
Publication date: 1998-04-24
Also published as: SG53078A1; US6243672B1; KR19980024970A; KR100538987B1

Abstract

(57)【要約】【課題】検出されるべきピッチよりもハーフピッチや
倍ピッチの方が強い自己相関を有する音声信号に対して
も高精度のピッチ検出を行うことができるピッチ検出方
法と、そのピッチ検出方法を適用する音声信号符号化方
法および装置を提供する。【解決手段】入力音声信号に対して有声音／無声音判
定を行い、有声音部分に対してサイン波分析符号化手段
１１４により、無声音部分に対して符号励起線形予測符
号化手段１２０により符号化出力を得る。その際にサイ
ン波分析符号化手段１１４において、入力音声信号から
ピッチ情報を求めるピッチサーチと、検出されたピッチ
情報等に基づいて高信頼性ピッチ情報の設定を行い、設
定された高信頼性ピッチ情報に基づいてピッチ検出結果
を決定する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力音声信号を時
間軸上で所定のブロック単位で区分し、その区分された
ブロックを符号化単位として符号化処理を行う音声信号
符号化方法および装置と、これらに適用するピッチ検出
方法に関する。

【０００２】

【従来の技術】音声信号や音響信号を含むオーディオ信
号の時間領域や周波数領域における統計的性質と人間の
聴感上の特性を利用して信号圧縮を行う符号化方法が種
々知られている。このような符号化方法は、時間領域で
の符号化、周波数領域での符号化、分析合成符号化等に
大別される。

【０００３】音声信号等の高能率符号化の例として、ハ
ーモニック（Harmonic）符号化、ＭＢＥ（Multiband Ex
citation: マルチバンド励起）符号化等のサイン波分析
符号化や、ＳＢＣ（Sub-band Coding:帯域分割符号
化）、ＬＰＣ（Linear Predictive Coding: 線形予測符
号化）、あるいはＤＣＴ（離散コサイン変換）、ＭＤＣ
Ｔ（モデファイドＤＣＴ）、ＦＦＴ（高速フーリエ変
換）等が知られている。

【０００４】

【発明が解決しようとする課題】ところで、入力音声信
号のピッチをパラメータとして用いて励起信号を生成す
るサイン波合成符号化等では、ピッチ検出が重要な役割
を担っており、従来の音声信号符号化回路等に用いられ
ている自己相関法に、例えば、サンプルのずらし量を１
サンプル以下とするフラクショナルサーチを加えること
によりピッチ検出精度の向上を図ったようなピッチ検出
方法では、音声信号中の本来検出されるべきピッチより
もハーフピッチや倍ピッチの方が強い自己相関を有する
場合には、これらを誤検出してしまうことがあった。

【０００５】本発明は、このような実情に鑑みてなされ
たものであり、検出されるべきピッチよりもハーフピッ
チや倍ピッチの方が強い自己相関を有する音声信号に対
しても高精度のピッチ検出を行うことができるピッチ検
出方法、および上記ピッチ検出方法を適用して、異音等
の発生がなく明瞭度の高い自然な再生音声を得ることが
できる音声信号符号化方法および装置を提供することを
目的とする。

【０００６】

【課題を解決するための手段】
上記の課題を解決するために提案する、本発明に係るピ
ッチ検出方法は、入力音声信号を時間軸上で所定の符号
化単位で区分し、その区分された各符号化単位の音声信
号に対してその基本周期に相当するピッチを検出するピ
ッチ検出方法であり、所定のピッチ検出条件のもとにピ
ッチ情報の検出を行うピッチサーチ工程と、検出された
ピッチ情報と、上記入力音声信号の音声レベルと、上記
入力音声信号の自己相関ピーク値とに基づいて、上記ピ
ッチ検出条件よりもよりピッチである可能性が高い場合
に真となる条件を満足する高信頼性ピッチ情報を設定す
る工程と、設定された高信頼性ピッチ情報に基づいてピ
ッチを決定する工程とを有してなることを特徴とするも
のである。

【０００７】上記の特徴を有する本発明に係るピッチ検
出方法によれば、ハーフピッチや倍ピッチを誤検出する
ことなく、高精度のピッチ検出を行うことができる。

【０００８】また、上記の課題を解決するために提案す
る、本発明に係る音声信号符号化方法および装置は、入
力音声信号を時間軸上で所定の符号化単位で区分し、そ
の区分された各符号化単位の音声信号に対して符号化を
行うものであり、上記ピッチ検出方法によりピッチを検
出し、入力音声信号の短期予測残差を求める予測符号化
と、求められた短期予測残差に対してサイン波分析符号
化を施すサイン波分析符号化と、上記入力音声信号に対
して波形符号化による符号化を施す波形符号化と、上記
入力音声信号に対して有声音／無声音判定を行う判定と
を行うことを特徴とするものである。

【０００９】上記の特徴を備えた本発明に係る音声信号
符号化方法および装置によれば、音声信号中のハーフピ
ッチや倍ピッチを誤検出することなく高精度のピッチ検
出を行うことができるため、ｐ、ｋ、ｔ等の破裂音や摩
擦音がきれいに再生でき、有声音（Ｖ）部と無声音（Ｕ
Ｖ）部との遷移部分でも異音等の発生がなく、鼻詰まり
感のない明瞭度の高い自然な再生音声を得ることができ
る。

【００１０】

【発明の実施の形態】以下、本発明に係る好ましい実施
の形態について説明する。先ず、図１は、本発明に係る
ピッチ検出方法および音声信号符号化方法の実施の形態
が適用された音声信号符号化装置の基本構成を示してい
る。

【００１１】ここで、図１の音声信号符号化装置の基本
的な考え方は、入力音声信号の短期予測残差、例えばＬ
ＰＣ（線形予測符号化）残差を求めてサイン波分析（si
nusoidal analysis ）符号化、例えばハーモニックコー
ディング（harmonic coding）を行う第１の符号化部１
１０と、入力音声信号に対して位相再現性のある波形符
号化により符号化する第２の符号化部１２０とを有し、
入力信号の有声音（Ｖ：Voiced）の部分の符号化に第１
の符号化部１１０を用い、入力信号の無声音（ＵＶ：Un
voiced）の部分の符号化には第２の符号化部１２０を用
いるようにすることである。

【００１２】上記第１の符号化部１１０には、例えばＬ
ＰＣ残差をハーモニック符号化やマルチバンド励起（Ｍ
ＢＥ）符号化のようなサイン波分析符号化を行う構成が
用いられる。上記第２の符号化部１２０には、例えば合
成による分析法を用いて最適ベクトルのクローズドルー
プサーチによるベクトル量子化を用いた符号励起線形予
測（ＣＥＬＰ）符号化の構成が用いられる。

【００１３】図１の例では、入力端子１０１に供給され
た音声信号が、第１の符号化部１１０のＬＰＣ逆フィル
タ１１１およびＬＰＣ分析・量子化部１１３に送られて
いる。ＬＰＣ分析・量子化部１１３から得られたＬＰＣ
係数あるいはいわゆるαパラメータは、ＬＰＣ逆フィル
タ１１１に送られて、このＬＰＣ逆フィルタ１１１によ
り入力音声信号の線形予測残差（ＬＰＣ残差）が取り出
される。また、ＬＰＣ分析・量子化部１１３からは、後
述するようにＬＳＰ（線スペクトル対）の量子化出力が
取り出され、これが出力端子１０２に送られる。ＬＰＣ
逆フィルタ１１１からのＬＰＣ残差は、サイン波分析符
号化部１１４に送られる。サイン波分析符号化部１１４
では、ピッチ検出やスペクトルエンベロープ振幅計算が
行われると共に、Ｖ（有声音）／ＵＶ（無声音）判定部
１１５によりＶ／ＵＶの判定が行われる。サイン波分析
符号化部１１４からのスペクトルエンベロープ振幅デー
タがベクトル量子化部１１６に送られる。スペクトルエ
ンベロープのベクトル量子化出力としてのベクトル量子
化部１１６からのコードブックインデクスは、スイッチ
１１７を介して出力端子１０３に送られ、サイン波分析
符号化部１１４からの出力は、スイッチ１１８を介して
出力端子１０４に送られる。また、Ｖ／ＵＶ判定部１１
５からのＶ／ＵＶ判定出力は、出力端子１０５に送られ
ると共に、スイッチ１１７、１１８の制御信号として送
られており、上述した有声音（Ｖ）のとき上記インデク
スおよびピッチが選択されて各出力端子１０３および１
０４からそれぞれ取り出される。

【００１４】図１の第２の符号化部１２０は、この例で
はＣＥＬＰ（符号励起線形予測）符号化構成を有してお
り、雑音符号帳１２１からの出力を、重み付きの合成フ
ィルタ１２２により合成処理し、得られた重み付き音声
を減算器１２３に送り、入力端子１０１に供給された音
声信号を聴覚重み付けフィルタ１２５を介して得られた
音声との誤差を取り出し、この誤差を距離計算回路１２
４に送って距離計算を行い、誤差が最小となるようなベ
クトルを雑音符号帳１２１でサーチするような、合成に
よる分析（Analysis by Synthesis ）法を用いたクロー
ズドループサーチを用いた時間軸波形のベクトル量子化
を行っている。このＣＥＬＰ符号化は、上述したように
無声音部分の符号化に用いられており、雑音符号帳１２
１からのＵＶデータとしてのコードブックインデクス
は、上記Ｖ／ＵＶ判定部１１５からのＶ／ＵＶ判定結果
が無声音（ＵＶ）のときオンとなるスイッチ１２７を介
して、出力端子１０７より取り出される。

【００１５】次に、図２は、本発明に係る音声信号復号
化方法の一実施の形態が適用された音声信号復号化装置
として、上記図１の音声信号符号化装置に対応する音声
信号復号化装置の基本構成を示すブロック図である。

【００１６】この図２において、入力端子２０２には上
記図１の出力端子１０２からの上記ＬＳＰ（線スペクト
ル対）の量子化出力としてのコードブックインデクスが
入力される。入力端子２０３、２０４、および２０５に
は、上記図１の各出力端子１０３、１０４、および１０
５からの各出力、すなわちエンベロープ量子化出力とし
てのインデクス、ピッチ、およびＶ／ＵＶ判定出力がそ
れぞれ入力される。また、入力端子２０７には、上記図
１の出力端子１０７からのＵＶ（無声音）用のデータと
してのインデクスが入力される。

【００１７】入力端子２０３からのエンベロープ量子化
出力としてのインデクスは、逆ベクトル量子化器２１２
に送られて逆ベクトル量子化され、ＬＰＣ残差のスペク
トルエンベロープが求められて有声音合成部２１１に送
られる。有声音合成部２１１は、サイン波合成により有
声音部分のＬＰＣ（線形予測符号化）残差を合成するも
のであり、この有声音合成部２１１には入力端子２０４
および２０５からのピッチおよびＶ／ＵＶ判定出力も供
給されている。有声音合成部２１１からの有声音のＬＰ
Ｃ残差は、ＬＰＣ合成フィルタ２１４に送られる。ま
た、入力端子２０７からのＵＶデータのインデクスは、
無声音合成部２２０に送られて、雑音符号帳を参照する
ことにより無声音部分のＬＰＣ残差が取り出される。こ
のＬＰＣ残差もＬＰＣ合成フィルタ２１４に送られる。
ＬＰＣ合成フィルタ２１４では、上記有声音部分のＬＰ
Ｃ残差と無声音部分のＬＰＣ残差とがそれぞれ独立に、
ＬＰＣ合成処理が施される。あるいは、有声音部分のＬ
ＰＣ残差と無声音部分のＬＰＣ残差とが加算されたもの
に対してＬＰＣ合成処理を施すようにしてもよい。ここ
で入力端子２０２からのＬＳＰのインデクスは、ＬＰＣ
パラメータ再生部２１３に送られて、ＬＰＣのαパラメ
ータが取り出され、これがＬＰＣ合成フィルタ２１４に
送られる。ＬＰＣ合成フィルタ２１４によりＬＰＣ合成
されて得られた音声信号は、出力端子２０１より取り出
される。

【００１８】次に、上記図１に示した音声信号符号化装
置のより具体的な構成について、図３を参照しながら説
明する。なお、図３において、上記図１の各部と対応す
る部分には同じ指示符号を付している。

【００１９】この図３に示された音声信号符号化装置に
おいて、入力端子１０１に供給された音声信号は、ハイ
パスフィルタ（ＨＰＦ）１０９にて不要な帯域の信号を
除去するフィルタ処理が施された後、ＬＰＣ（線形予測
符号化）分析・量子化部１１３のＬＰＣ分析回路１３２
と、ＬＰＣ逆フィルタ回路１１１とに送られる。

【００２０】ＬＰＣ分析・量子化部１１３のＬＰＣ分析
回路１３２は、入力信号波形の２５６サンプル程度の長
さを１ブロックとしてハミング窓をかけて、自己相関法
により線形予測係数、いわゆるαパラメータを求める。
データ出力の単位となるフレーミングの間隔は、１６０
サンプル程度とする。サンプリング周波数ｆｓが例えば
８ｋHzのとき、１フレーム間隔は１６０サンプルで２０
ｍsec となる。

【００２１】ＬＰＣ分析回路１３２からのαパラメータ
は、α→ＬＳＰ変換回路１３３に送られて、線スペクト
ル対（ＬＳＰ）パラメータに変換される。これは、直接
型のフィルタ係数として求まったαパラメータを、例え
ば１０個、すなわち５対のＬＳＰパラメータに変換す
る。変換は例えばニュートン−ラプソン法等を用いて行
う。このＬＳＰパラメータに変換するのは、αパラメー
タよりも補間特性に優れているからである。

【００２２】α→ＬＳＰ変換回路１３３からのＬＳＰパ
ラメータは、ＬＳＰ量子化器１３４によりマトリクスあ
るいはベクトル量子化される。このとき、フレーム間差
分をとってからベクトル量子化してもよく、複数フレー
ム分をまとめてマトリクス量子化してもよい。ここで
は、２０ｍsec を１フレームとし、２０ｍsec 毎に算出
されるＬＳＰパラメータを２フレーム分まとめて、マト
リクス量子化およびベクトル量子化している。

【００２３】このＬＳＰ量子化器１３４からの量子化出
力、すなわちＬＳＰ量子化のインデクスは、端子１０２
を介して取り出され、また量子化済みのＬＳＰベクトル
は、ＬＳＰ補間回路１３６に送られる。

【００２４】ＬＳＰ補間回路１３６は、上記２０ｍsec
あるいは４０ｍsec 毎に量子化されたＬＳＰのベクトル
を補間し、８倍のレートにする。すなわち、２．５ｍse
c 毎にＬＳＰベクトルが更新されるようにする。これ
は、残差波形をハーモニック符号化復号化方法により分
析合成すると、その合成波形のエンベロープは非常にな
だらかでスムーズな波形になるため、ＬＰＣ係数が２０
ｍsec 毎に急激に変化すると異音を発生することがある
からである。すなわち、２．５ｍsec 毎にＬＰＣ係数が
徐々に変化してゆくようにすれば、このような異音の発
生を防ぐことができる。

【００２５】このような補間が行われた２．５ｍsec 毎
のＬＳＰベクトルを用いて入力音声の逆フィルタリング
を実行するために、ＬＳＰ→α変換回路１３７により、
ＬＳＰパラメータを例えば１０次程度の直接型フィルタ
の係数であるαパラメータに変換する。このＬＳＰ→α
変換回路１３７からの出力は、上記ＬＰＣ逆フィルタ回
路１１１に送られ、このＬＰＣ逆フィルタ１１１では、
２．５ｍsec 毎に更新されるαパラメータにより逆フィ
ルタリング処理を行って、滑らかな出力を得るようにし
ている。このＬＰＣ逆フィルタ１１１からの出力は、サ
イン波分析符号化部１１４、具体的には例えばハーモニ
ック符号化回路、の直交変換回路１４５、例えばＤＦＴ
（離散フーリエ変換）回路に送られる。

【００２６】ＬＰＣ分析・量子化部１１３のＬＰＣ分析
回路１３２からのαパラメータは、聴覚重み付けフィル
タ算出回路１３９に送られて聴覚重み付けのためのデー
タが求められ、この重み付けデータが後述する聴覚重み
付きのベクトル量子化器１１６と、第２の符号化部１２
０の聴覚重み付けフィルタ１２５および聴覚重み付きの
合成フィルタ１２２とに送られる。

【００２７】ハーモニック符号化回路等のサイン波分析
符号化部１１４では、ＬＰＣ逆フィルタ１１１からの出
力を、ハーモニック符号化の方法で分析する。すなわ
ち、ピッチ検出、各ハーモニクスの振幅Ａm の算出、有
声音（Ｖ）／無声音（ＵＶ）の判別を行い、ピッチによ
って変化するハーモニクスのエンベロープあるいは振幅
Ａm の個数を次元変換して一定数にしている。

【００２８】図３に示すサイン波分析符号化部１１４の
具体例においては、一般のハーモニック符号化を想定し
ているが、特に、ＭＢＥ（Multiband Excitation: マル
チバンド励起）符号化の場合には、同時刻（同じブロッ
クあるいはフレーム内）の周波数軸領域いわゆるバンド
毎に有声音（Voiced）部分と無声音（Unvoiced）部分と
が存在するという仮定でモデル化することになる。それ
以外のハーモニック符号化では、１ブロックあるいはフ
レーム内の音声が有声音か無声音かの択一的な判定がな
されることになる。なお、以下の説明中のフレーム毎の
Ｖ／ＵＶとは、ＭＢＥ符号化に適用した場合には全バン
ドがＵＶのときを当該フレームのＵＶとしている。ここ
で上記ＭＢＥの分析合成手法については、本件出願人が
先に提案した特願平４−９１４２２号明細書および図面
に詳細な具体例を開示している。

【００２９】図３のサイン波分析符号化部１１４のオー
プンループピッチサーチ部１４１には、上記入力端子１
０１からの入力音声信号が、またゼロクロスカウンタ１
４２には、上記ＨＰＦ（ハイパスフィルタ）１０９から
の信号がそれぞれ供給されている。サイン波分析符号化
部１１４の直交変換回路１４５には、ＬＰＣ逆フィルタ
１１１からのＬＰＣ残差あるいは線形予測残差が供給さ
れている。

【００３０】オープンループピッチサーチ部１４１で
は、入力信号のＬＰＣ残差をとってオープンループによ
る１．０ステップのピッチのサーチが行われ、抽出され
た粗ピッチ情報は高精度ピッチサーチ１４６に送られ
て、後述するようなクローズドループによる０．２５ス
テップの高精度のピッチサーチ（ピッチのファインサー
チ）が行われる。

【００３１】また、オープンループピッチサーチ部１４
１では、上記抽出された粗ピッチ情報に基づいて高信頼
性ピッチ情報の設定を行う。この高信頼性ピッチ情報
は、上記粗ピッチ情報よりも厳しい条件で、先ずその候
補値が設定され、粗ピッチ情報と比較することにより、
その値が更新または棄却される。なお、この高信頼性ピ
ッチ情報の設定，更新等については後述する。

【００３２】さらに、オープンループピッチサーチ部１
４１からは、上記粗ピッチ情報および高精度ピッチ情報
と共にＬＰＣ残差の自己相関ピーク値の最大値をパワー
で正規化した正規化自己相関最大値ｒ'(1)が取り出さ
れ、Ｖ／ＵＶ（有声音／無声音）判定部１１５に送られ
ている。

【００３３】なお、後述するＶ／ＵＶ（有声音／無声
音）判定部１１５からの判定出力も上記オープンループ
サーチのためのパラメータとして用いるようにしてもよ
い。このとき、音声信号のＶ（有声音）と判定された部
分から抽出されたピッチ情報のみを上記オープンループ
サーチに用いるようにする。

【００３４】直交変換回路１４５では例えばＤＦＴ（離
散フーリエ変換）等の直交変換処理が施されて、時間軸
上のＬＰＣ残差が周波数軸上のスペクトル振幅データに
変換される。この直交変換回路１４５からの出力は、高
精度ピッチサーチ部１４６およびスペクトル振幅あるい
はエンベロープを評価するためのスペクトル評価部１４
８に送られる。

【００３５】高精度（ファイン）ピッチサーチ部１４６
には、オープンループピッチサーチ部１４１で抽出され
た比較的ラフな粗ピッチ情報および高信頼性ピッチ情報
と、直交変換部１４５により例えばＤＦＴされた周波数
軸上のデータとが供給されている。この高精度ピッチサ
ーチ部１４６では、上記粗ピッチ情報値を中心に、0.２
５サンプルきざみで±数サンプルずつ振って、最適な小
数点付き（フローティング）のファインピッチ情報の値
へ追い込む。このときのファインサーチの手法として、
いわゆる合成による分析 (Analysis by Synthesis)法を
用い、合成されたパワースペクトルが原音のパワースペ
クトルに最も近くなるようにピッチを選んでいる。この
ようなクローズドループによる高精度のピッチサーチ部
１４６からのピッチ情報は、スイッチ１１８を介して出
力端子１０４に送られる。

【００３６】スペクトル評価部１４８では、ＬＰＣ残差
の直交変換出力としてのスペクトル振幅およびピッチ情
報に基づいて各ハーモニクスの大きさおよびその集合で
あるスペクトルエンベロープが評価され、高精度ピッチ
サーチ部１４６、Ｖ／ＵＶ（有声音／無声音）判定部１
１５および聴覚重み付きのベクトル量子化器１１６に送
られる。

【００３７】Ｖ／ＵＶ（有声音／無声音）判定部１１５
は、直交変換回路１４５からの出力と、高精度ピッチサ
ーチ部１４６からの最適ピッチと、スペクトル評価部１
４８からのスペクトル振幅データと、オープンループピ
ッチサーチ部１４１からの正規化自己相関最大値ｒ'(1)
と、ゼロクロスカウンタ１４２からのゼロクロスカウン
ト値とに基づいて、当該フレームのＶ／ＵＶ判定が行わ
れる。さらに、ＭＢＥの場合の各バンド毎のＶ／ＵＶ判
定結果の境界位置も該フレームのＶ／ＵＶ判定の一条件
としてもよい。このＶ／ＵＶ判定部１１５からの判定出
力は、出力端子１０５を介して取り出される。

【００３８】ところで、スペクトル評価部１４８の出力
部あるいはベクトル量子化器１１６の入力部には、デー
タ数変換（一種のサンプリングレート変換）部が設けら
れている。このデータ数変換部は、上記ピッチに応じて
周波数軸上での分割帯域数が異なり、データ数が異なる
ことを考慮して、エンベロープの振幅データ｜Ａ_m｜を
一定の個数にするためのものである。すなわち、例えば
有効帯域を３４００ｋHzまでとすると、この有効帯域が
上記ピッチに応じて、８バンド〜６３バンドに分割され
ることになり、これらの各バンド毎に得られる上記振幅
データ｜Ａ_m｜の個数ｍ_MX＋１も８〜６３と変化するこ
とになる。このためデータ数変換部１１９では、この可
変個数ｍ_MX＋１の振幅データを一定個数Ｍ個、例えば４
４個、のデータに変換している。

【００３９】このスペクトル評価部１４８の出力部ある
いはベクトル量子化器１１６の入力部に設けられたデー
タ数変換部からの上記一定個数Ｍ個（例えば４４個）の
振幅データあるいはエンベロープデータが、ベクトル量
子化器１１６により、所定個数、例えば４４個のデータ
毎にまとめられてベクトルとされ、重み付きベクトル量
子化が施される。この重みは、聴覚重み付けフィルタ算
出回路１３９からの出力により与えられる。ベクトル量
子化器１１６からの上記エンベロープのインデクスは、
スイッチ１１７を介して出力端子１０３より取り出され
る。なお、上記重み付きベクトル量子化に先だって、所
定個数のデータから成るベクトルについて適当なリーク
係数を用いたフレーム間差分をとっておくようにしても
よい。

【００４０】次に、第２の符号化部１２０について説明
する。第２の符号化部１２０は、いわゆるＣＥＬＰ（符
号励起線形予測）符号化構成を有しており、特に、入力
音声信号の無声音部分の符号化のために用いられてい
る。この無声音部分用のＣＥＬＰ符号化構成において、
雑音符号帳、いわゆるストキャスティック・コードブッ
ク（stochastic code book）１２１からの代表値出力で
ある無声音のＬＰＣ残差に相当するノイズ出力を、ゲイ
ン回路１２６を介して、聴覚重み付きの合成フィルタ１
２２に送っている。重み付きの合成フィルタ１２２で
は、入力されたノイズをＬＰＣ合成処理し、得られた重
み付き無声音の信号を減算器１２３に送っている。減算
器１２３には、上記入力端子１０１からＨＰＦ（ハイパ
スフィルタ）１０９を介して供給された音声信号を聴覚
重み付けフィルタ１２５で聴覚重み付けした信号が入力
されており、合成フィルタ１２２からの信号との差分あ
るいは誤差を取り出している。なお、聴覚重み付けフィ
ルタ１２５の出力から聴覚重み付き合成フィルタの零入
力応答を事前に差し引いておくものとする。この誤差を
距離計算回路１２４に送って距離計算を行い、誤差が最
小となるような代表値ベクトルを雑音符号帳１２１でサ
ーチする。このような合成による分析（Analysisby Syn
thesis ）法を用いたクローズドループサーチにより時
間軸波形のベクトル量子化を行っている。

【００４１】このＣＥＬＰ符号化構成を用いた第２の符
号化部１２０からのＵＶ（無声音）部分用のデータとし
ては、雑音符号帳１２１からのコードブックのシェイプ
インデクスと、ゲイン回路１２６からのコードブックの
ゲインインデクスとが取り出される。雑音符号帳１２１
からのＵＶデータであるシェイプインデクスは、スイッ
チ１２７ｓを介して出力端子１０７ｓに送られ、ゲイン
回路１２６のＵＶデータであるゲインインデクスは、ス
イッチ１２７ｇを介して出力端子１０７ｇに送られてい
る。

【００４２】ここで、これらのスイッチ１２７ｓ、１２
７ｇおよび上記スイッチ１１７、１１８は、上記Ｖ／Ｕ
Ｖ判定部１１５からのＶ／ＵＶ判定結果によりオン／オ
フ制御され、スイッチ１１７、１１８は、現在伝送しよ
うとするフレームの音声信号のＶ／ＵＶ判定結果が有声
音（Ｖ）のときオンとなり、スイッチ１２７ｓ、１２７
ｇは、現在伝送しようとするフレームの音声信号が無声
音（ＵＶ）のときオンとなる。

【００４３】次に、前述した高信頼性ピッチ情報につい
て説明する。

【００４４】高信頼性ピッチ情報は、倍ピッチやハーフ
ピッチの誤検出を防ぐために、従来のピッチ情報に加え
て用いる評価パラメータであり、図３に示した音声信号
符号化装置では、サイン波分析符号化部１１４のオープ
ンループピッチサーチ部１４１において、入力端子１０
１から入力される入力音声信号ピッチ情報，音声レベル
（フレームレベル），自己相関ピーク値とに基づいて、
まず、高信頼性ピッチ情報の候補値として設定される。
そして、この設定された高信頼性ピッチ情報の候補値
は、次フレームのオープンループサーチの結果と比較さ
れ、２つのピッチが十分に近いときに高信頼性ピッチ情
報として登録される。そうでない場合、候補値は棄却さ
れる。また、登録された高信頼性ピッチ情報について
も、所定の時間更新されない場合に棄却される。

【００４５】次に、上記の高信頼性ピッチ情報が、設定
およびリセットされる具体的な手順のアルゴリズムを示
す。なお以下では、１フレームを符号化単位として説明
する。

【００４６】以下に用いる各変数の定義は rblＰch ：高信頼性ピッチ情報 rblＰchＣd ：高信頼性ピッチ情報候補値 rblＰchＨoldＳtate ：高信頼性ピッチ情報保持時間 lev ：音声レベル（フレームレベル）(rms) である。

【００４７】Ambiguous(p0,p1,range)は、以下の４条件 abs(p0−2.0×p1)/p0 ＜ range abs(p0−3.0×p1)/p0 ＜ range abs(p0−p1/2.0) /p0 ＜ range abs(p0−p1/3.0) /p0 ＜ range のいずれかの条件を満たしたとき、すなわち、２つのピ
ッチp0とピッチp1とが互いに２倍，３倍、あるいは互い
に１／２，１／３の関係にあると判断される場合に真と
なる関数である。rangeは所定の定数である。また、 pitch[0] ：１フレーム過去のピッチ pitch[1] ：現在フレームのピッチ pitch[2] ：１フレーム未来（先行）のピッチｒ'(n) ：自己相関ピーク値 lag(n) ：ピッチラグ（ピッチ周期をサンプル数で表し
たもの）とする。ここで、ｒ'(n)は、算出した自己相関値Ｒ_k を
自己相関の０番目のピークＲ₀ （パワー）で規格化して
大きい順に並べたものであり、ｎはその順番を表す。

【００４８】上記自己相関ピーク値ｒ'(n)およびピッチ
ラグlag(n)は、現フレームについても保存されているも
のとし、それらを各々crntＲ'(n)およびcrntLag(n)とす
る。さらに、 rp[0] ：１フレーム過去の自己相関ピーク最大値ｒ'
(1) rp[1] ：現在フレームの自己相関ピーク最大値ｒ'(1) rp[2] ：１フレーム未来（先行）の自己相関ピーク最
大値ｒ'(1) とする。そして、現フレームの、ピッチ，自己相関ピー
ク値，フレームレベル等がある条件を満たすことにより
高信頼性ピッチ情報候補値が設定され、さらに、この候
補値と次フレームのピッチの差が、ある値より小さいと
きにのみ高信頼性ピッチ情報が登録されるものとする。

【００４９】以下に、検出された粗ピッチ情報に基づい
て高信頼性ピッチ情報を設定するアルゴリズムの一例を
示す。

【００５０】［条件１］ if rblＰch×0.6＜pitch[1]＜rblＰch×1.8 and rp[1]＞0.39 and lev＞2000.0 or rp[1]＞0.65 or rp[1]＞0.30 and abs(pitch[1]-rblＰchＣd)＜8.0 and lev＞400.0 then ［条件２］ if rblＰchＣd≠0.0 and abs(pitch[1]-rblＰchＣd)＜8 and !Ambiguous(rblＰch,pitch[1],0.11) then ［処理１］ rblＰch＝pitch[1] endif ［処理２］ rblＰchＣd＝pitch[1] else ［処理３］ rblＰchＣd＝0.0 endif まず、上記のアルゴリズムにより高信頼性ピッチ情報が
設定される手順を図４に示すフローチャートを用いて説
明する。

【００５１】ステップＳ１において［条件１］が満足さ
れるときは、ステップＳ２に進み［条件２］を満足する
かどうかが判定される。一方、ステップＳ１において
［条件１］が満足されないときには、ステップＳ５に示
す［処理３］が実行されて、その実行結果が高信頼性ピ
ッチ情報とされる。

【００５２】ステップＳ２において［条件２］が満足さ
れるときは、ステップＳ３の［処理１］が実行され、引
き続いてステップＳ４の［処理２］が実行される。一
方、ステップＳ２において［条件２］が満足されないと
きには、ステップＳ３の［処理１］が実行されずにステ
ップＳ４の［処理２］が実行される。

【００５３】そして、上記ステップＳ４の［処理２］の
実行結果が高信頼性ピッチ情報として出力される。

【００５４】そして、高信頼性ピッチ情報が登録された
後、所定の時間、例えば５フレームに亘って高信頼性ピ
ッチ情報が新たに登録されない場合、その高信頼性ピッ
チ情報はリセットされる。

【００５５】以下に、設定された高信頼性ピッチ情報が
リセットされるアルゴリズムの一例を示す。

【００５６】上記のアルゴリズムにより高信頼性ピッチ情報がリセッ
トされる手順を図５に示すフローチャートを用いて説明
する。

【００５７】ステップＳ６において［条件３］が満足さ
れるときは、ステップＳ７に示す［処理４］が実行され
て高信頼性ピッチ情報がリセットされる。一方、ステッ
プＳ６において［条件３］が満足されないときにはステ
ップＳ７の［処理４］が実行されずに、ステップＳ８に
示す［処理５］が実行されて高信頼性ピッチ情報がリセ
ットされる。

【００５８】このようにして、高信頼性ピッチ情報が設
定およびリセットされる。

【００５９】ところで、上記音声信号符号化装置では、
要求される音声品質にて合わせ異なるビットレートの出
力データを出力することができ、出力データのビットレ
ートが可変されて出力される。

【００６０】具体的には、出力データのビットレート
を、低ビットレートと高ビットレートとに切り換えるこ
とができる。例えば、低ビットレートを２ｋbpsとし、
高ビットレートを６ｋbpsとする場合には、以下の表１
に示す各ビットレートのデータが出力される。

【００６１】

【表１】

【００６２】出力端子１０４からのピッチ情報について
は、有声音時に、常に８bits／２０ｍsecで出力され、
出力端子１０５から出力されるＶ／ＵＶ判定出力は、常
に１bit／２０ｍsecである。出力端子１０２から出力さ
れるＬＳＰ量子化のインデクスは、３２bits／４０ｍse
cと４８bits／４０ｍsecとの間で切り換えが行われる。
また、出力端子１０３から出力される有声音時（Ｖ）の
インデクスは、１５bits／２０ｍsecと８７bits／２０
ｍsecとの間で切り換えが行われ、出力端子１０７ｓ、
１０７ｇから出力される無声音時（ＵＶ）のインデクス
は、１１bits／１０ｍsecと２３bits／５ｍsecとの間で
切り換えが行われる。これにより、有声音時（Ｖ）の出
力データは、２ｋbpsでは４０bits／２０ｍsecとなり、
６ｋbps では１２０bits／２０ｍsecとなる。また、無
声音時（ＵＶ）の出力データは、２ｋbpsでは３９bits
／２０ｍsecとなり、６ｋbps では１１７bits／２０ｍs
ecとなる。なお、上記ＬＳＰ量子化のインデクス、有声
音時（Ｖ）のインデクス、および無声音時（ＵＶ）のイ
ンデクスについては、後述する各部の構成と共に説明す
る。

【００６３】次に、図３の音声信号符号化装置におい
て、Ｖ／ＵＶ（有声音／無声音）判定部１１５の具体例
について説明する。

【００６４】このＶ／ＵＶ判定部１１５は、入力音声信
号のフレーム平均エネルギlev 、正規化自己相関ピーク
値rp 、スペクトル類似度pos 、零交叉（ゼロクロス）
数nZero 、ピッチラグpch に基づいて、当該フレームの
Ｖ／ＵＶ判定を行う。

【００６５】すなわち、Ｖ／ＵＶ判定部１１５には、直
交変換回路１４５からの出力に基づいて入力音声信号の
フレーム平均エネルギ、すなわちフレーム平均ｒｍｓも
しくはそれに準ずる量lev が供給され、オープンループ
ピッチサーチ部１４１からの正規化自己相関ピーク値rp
が供給され、ゼロクロスカウンタ１４２からのゼロク
ロスカウント値（零交叉数）nZero が供給され、高精度
ピッチサーチ部１４６からの最適ピッチとして、ピッチ
周期をサンプル数で表したピッチラグpch が供給され
る。また、ＭＢＥの場合と同様な各バンド毎のＶ／ＵＶ
判別結果の境界位置も当該フレームのＶ／ＵＶ判定の一
条件としており、これがスペクトル類似度pos としてＶ
／ＵＶ判定部１１５に供給される。

【００６６】このＭＢＥの場合の各バンド毎のＶ／ＵＶ
判定結果を用いたＶ／ＵＶ判定条件について以下に説明
する。

【００６７】ＭＢＥの場合の第ｍ番目のハーモニックス
の大きさを表すパラメータあるいは振幅｜Ａ_m｜は、

【００６８】

【数１】

【００６９】により表せる。この式において、｜Ｓ(j)
｜は、ＬＰＣ残差をＤＦＴしたスペクトルであり、｜
Ｅ(j)｜は、基底信号のスペクトル、具体的には２５６
ポイントのハミング窓をＤＦＴしたものである。また、
各バンド毎のＶ／ＵＶ判定のために、ＮＳＲ（ノイズto
シグナル比）を利用する。この第ｍバンドのＮＳＲは、

【００７０】

【数２】

【００７１】と表せ、このＮＳＲ値が所定の閾値（例え
ば0.3 ）より大のとき（エラーが大きい）ときには、そ
のバンドでの｜Ａ_m ｜｜Ｅ(j) ｜による｜Ｓ(j) ｜の近
似が良くない（上記励起信号｜Ｅ(j) ｜が基底として不
適当である）と判断でき、当該バンドをＵＶ（Unvoice
d、無声音）と判別する。これ以外のときは、近似があ
る程度良好に行われていると判断でき、そのバンドをＶ
（Voiced：有声音）と判別する。

【００７２】ところで、上述したように基本ピッチ周波
数で分割されたバンドの数（ハーモニックスの数）は、
声の高低（ピッチの大小）によって約８〜６３程度の範
囲で変動するため、各バンド毎のＶ／ＵＶフラグの個数
も同様に変動してしまう。そこで、固定的な周波数帯域
で分割した一定個数のバンド毎にＶ／ＵＶ判別結果をま
とめる（あるいは縮退させる）ようにしている。具体的
には、音声帯域を含む所定帯域を例えば１２個のバンド
に分割し、当該バンドのＶ／ＵＶを判断している。この
場合のバンド毎のＶ／ＵＶ判別データについては、全バ
ンド中で１箇所以下の有声音（Ｖ）領域と無声音（Ｕ
Ｖ）領域との区分位置あるいは境界位置を表すデータ
を、上記スペクトル類似度pos として用いている。この
場合、スペクトル類似度pos の取り得る値は、１≦pos
≦１２となる。

【００７３】Ｖ／ＵＶ判定部１１５に供給された上記各
入力パラメータは、それぞれ関数計算されて、Ｖ（有声
音）らしさを表す関数値の計算が行われる。このときの
関数の具体例について説明する。

【００７４】先ず、上記入力音声信号のフレーム平均エ
ネルギlev の値lev に基づいて、関数pLev(lev) の値が
計算される。この関数pLev(lev) としては、例えば、 pLev(lev) ＝ 1.0／（1.0＋exp(-(lev-400.0)/100.0)）が用いられる。

【００７５】次に、上記正規化自己相関ピーク値rp の
値（０≦rp≦1.0）に基づいて、関数pR0r(rp) の値が計
算される。この関数pR0r(rp) としては、例えば、 pR0r(rp) ＝ 1.0／（1.0＋exp(-(rp-0.3)/0.06)）が用いられる。

【００７６】また、上記スペクトル類似度pos の値（１
≦pos≦１２）に基づいて、関数pPos(pos) の値が計算
される。この関数pPos(pos) としては、例えば、 pPos(pos) ＝ 1.0／（1.0＋exp(-(pos-1.5)/0.8)）が用いられる。

【００７７】次に、上記零交叉数nZero の値（１≦nZer
o≦１６０）に基づいて、関数pNZero(nZero) の値が計
算される。この関数pNZero(nZero) としては、例えば、 pNZero(nZero) ＝ 1.0／（1.0＋exp((nZero-70.0)/12.
0)）が用いられる。

【００７８】さらに、上記ピッチラグpch の値（20≦pc
h≦147）に基づいて、関数pPch(pch) の値が計算され
る。この関数pPch(pch) としては、例えば、 pPch(pch) ＝ 1.0／（1.0＋exp(-(pch-12.0)/2.5)）×
1.0／（1.0＋exp((pch-105.0)/6.0)）が用いられる。

【００７９】これらの関数pLev(lev) ，pR0r(rp) ，pPo
s(pos) ，pNZero(nZero) ，pPch(pch) により算出され
た各パラメータlev ，rp ，pos ，nZero ，pch につい
てのＶ（有声音）らしさを用いて、最終的なＶらしさを
算出するわけであるが、このとき、次の２点を考慮する
ことが好ましい。

【００８０】すなわち、第１点として、例えば、自己相
関ピーク値が比較的小さくても、フレーム平均エネルギ
が非常に大きいような場合は、Ｖ（有声音）とすべきで
ある。このように、相補的な関係が強いパラメータ同士
では、重み付け和をとることにする。第２点として、独
立してＶらしさを表しているパラメータについては、乗
算を行う。

【００８１】よって、相補的な関係にある自己相関ピー
ク値とフレーム平均エネルギについては重み付け和をと
り、その他については乗算を行うことにし、最終的なＶ
らしさを表す関数ｆ（lev,rp,pos,nZero,pch）を、ｆ（lev,rp,pos,nZero,pch）＝（（1.2pR0r(rp)＋0.8pL
ev(lev)）／2.0）×pPos(pos)×pNZero(nZero)×pPch(p
ch) により計算する。ここで、重み付けパラメータ（α＝1.
2 ，β＝0.8）は経験的に得られたものである。

【００８２】Ｖ／ＵＶ（有声音／無声音）判定は、上記
のようにして得られた関数ｆの値を、所定の閾値で弁別
することにより行われる。具体的には、例えば、最終的
にｆが０．５以上であればＶ（有声音）とし、ｆが０．
５より小さければＵＶ（無声音）とする。

【００８３】なお、例えば上記正規化自己相関ピーク値
rp についての有声音らしさを求める上記関数pR0r(rp)
の代わりに、これを適当な直線により近似した関数pR0
r'(rp)として、 pR0r'(rp) ＝ 0.6x ０≦ｘ＜ 7/34 pR0r'(rp) ＝ 4.0（x - 0.175） 7/34 ≦ｘ＜ 67/170 pR0r'(rp) ＝ 0.6x + 0.64 67/170 ≦ｘ＜ 0.6 pR0r'(rp) ＝１ 0.6 ≦ｘ≦ 1.0 を用いることも可能である。

【００８４】以上説明したＶ／ＵＶ判定の基本的な考え
方をまとめると、上述した入力パラメータlev ，rp ，p
os ，nZero ，pch 等のようなＶ／ＵＶ判定のためのパ
ラメータｘを、ｇ(ｘ) ＝Ａ／（１＋ exp（−(ｘ−ｂ)/ａ））ただし、Ａ，ａ，ｂは定数で表されるシグモイド関数ｇ(ｘ)により変換し、このシ
グモイド関数ｇ(ｘ)により変換されたパラメータを用い
て有声音／無声音判定を行うことである。

【００８５】これらの入力パラメータlev ，rp ，pos
，nZero ，pch を一般化して、ｎ個（ｎは自然数）の
入力パラメータをそれぞれｘ₁,ｘ₂,...,ｘ_n と表すと
き、これらの入力パラメータｘ_k （ただし、ｋ＝１，
２，...，ｎ）によるＶ（有声音）らしさをそれぞれ関
数ｇ_k(ｘ_k)で表し、最終的なＶ（有声音）らしさを、ｆ（x₁,x₂,...,x_n）＝Ｆ（g₁(x₁),g₂(x₂),...,g
_n(x_n)）として評価する。

【００８６】上記関数ｇ_k(ｘ_k)（ただし、ｋ＝１，
２，...，ｎ）としては、その値域が、ｃ_kからｄ_kまで
の値（ただし、ｃ_k,ｄ_k は、ｃ_k＜ｄ_kの定数）を取る任
意の関数を用いることが挙げられる。

【００８７】また、上記関数ｇ_k(ｘ_k)としては、その値
域がｃ_kからｄ_kまでの値を取り、傾きの異なる複数の直
線からなる関数を用いることが挙げられる。

【００８８】また、上記関数ｇ_k(ｘ_k)としては、その値
域がｃ_kからｄ_kまでの値を取り、連続である関数を用い
ることが挙げられる。

【００８９】また、上記関数ｇ_k(ｘ_k)としては、ｇ_k(ｘ
_k) ＝Ａ_k／（１＋ exp（−(ｘ_k−ｂ_k)/ａ_k））ただし、ｋ＝１,２,...,ｎ、Ａ_k,ａ_k,ｂ_k は、入力パラメータｘ_k により異なる定数で表されるシグモイド関数もしくはその乗算による組み
合わせを用いることが挙げられる。

【００９０】ここで、上記シグモイド関数もしくはその
乗算による組み合わせによる関数を、傾きの異なる複数
の直線により近似することが挙げられる。

【００９１】入力パラメータとしては、上述した入力音
声信号のフレーム平均エネルギｌｅｖ、正規化自己相関
ピーク値ｒｐ、スペクトル類似度pos 、零交叉（ゼロ
クロス）数nZero 、ピッチラグpch 等が挙げられる。

【００９２】さらに、上述した入力パラメータlev ，rp
，pos ，nZero ，pch についてのＶ（有声音）らしさ
を表す関数をそれぞれpLev(lev) ，pR0r(rp) ，pPos(po
s)，pNZero(nZero) ，pPch(pch) とするとき、これらの
関数を用いた最終的なＶ（有声音）らしさを表す関数ｆ
（lev,rp,pos,nZero,pch）を、ｆ（lev,rp,pos,nZero,pch）＝（（αpR0r(rp)＋βpLev
(lev)）／（α＋β））×pPos(pos)×pNZero(nZero)×p
Pch(pch) により計算することが挙げられる。ここで、α，βは、
pR0r，pLevをそれぞれ適当に重み付けするための定数で
ある。

【００９３】上記のようにして得られた関数ｆの値を、
所定の閾値で弁別することにより、Ｖ／ＵＶの判定が行
われる。

【００９４】次に、高信頼性ピッチ情報を用いてピッチ
検出が行われる様子を説明する。

【００９５】まず、前述した手順により求めた高信頼性
ピッチ情報rblＰch を基準値とし、さらに前フレームの
Ｖ／ＵＶ判定結果prevＶＵＶを用いてピッチ検出を行う
場合について説明する。

【００９６】このとき、高信頼性ピッチ情報rblＰch と
前フレームのＶ／ＵＶ判定結果prevＶＵＶとの値の組合
わせにより、次の〜の４つのケースに大別される。

【００９７】 prevＶＵＶ≠０かつ rblＰch≠０のと
き；高信頼性ピッチ情報を主にピッチ検出を行う。すで
に１フレーム過去が有声音と判断されているので、ピッ
チ検出において、１フレーム過去の情報を優先させる。

【００９８】 prevＶＵＶ＝０かつ rblＰch≠０のと
き；１フレーム過去が無声音であるので、そのピッチを
使用することはできない。従って、rblＰchのみを参照
してピッチ検出を行う。

【００９９】 prevＶＵＶ＝１かつ rblＰch＝０のと
き；少なくとも１フレーム過去は有声音と判断されてい
るので、そのピッチのみを参照してピッチ検出を行う。

【０１００】 prevＶＵＶ＝０かつ rblＰch＝０のと
き；１フレーム過去が無声音と判断されているので、１
フレーム未来のピッチを参照してピッチ検出を行う。

【０１０１】次に、上記説明した４つのケースについ
て、図６および図７のフローチャートを用いて具体的に
説明する。

【０１０２】なお図６および図７の中で、！は否定を、
＆＆は「かつ(and)」を、trkＰchは最終的に検出ピッチ
とされるピッチをそれぞれ表す。

【０１０３】ＳearchＰeaks(frm) （frm＝｛0，2｝）
は、rp[1]≧rp[frm]もしくはrp[1]＞0.7であるときpitc
h[1]となり、そうでないときcrntＬag(n)をｎ＝0，1，
・・・と順にサーチし、0.81×pitch[frm]＜crntＬag
(n)＜1.2×pitch[frm]を最初に満たしたcrntＬag(n)を
その値とする関数である。

【０１０４】同様に、ＳearchＰeaks3Frmsは、rp[0]，r
p[1]，rp[2]を比較し、rp[1]がrp[0]，rp[2]以上である
か、もしくは0.7 より大きいときpitch[1]となり、そう
でないときは、自己相関ピーク値rp[0]，rp[2]が大きい
フレームを参照フレームとして、上記ＳearchＰeaks(fr
m)と同じ操作を行う関数である。

【０１０５】まず、ステップＳ１０では、「前フレーム
のＶ／ＵＶ判定結果prevＶＵＶが０でなくかつ高信頼
性ピッチ情報rblＰchが0.0でない」という条件を満たす
かどうかが判定される。この条件を満たさない場合に
は、後述するステップＳ２９に進む。一方、この条件を
満たす場合には、ステップＳ１１に進む。

【０１０６】ステップＳ１１では、 status0 ＝ Ambiguous(pitch[0]，rblＰch，0.11) status1 ＝ Ambiguous(pitch[1]，rblＰch，0.11) status2 ＝ Ambiguous(pitch[2]，rblＰch，0.11) を定義する。

【０１０７】そして、ステップＳ１２では、「status0
でないかつ status1でないかつ status2でない」とい
う条件を満たすかどうかが判定される。この条件を満た
す場合は、後述するステップＳ１３に進み、この条件を
満たさない場合は、ステップＳ１８に進む。

【０１０８】ステップＳ１８では、「status0でないか
つ status2でない」という条件を満たすかどうかが判定
される。この条件を満たす場合は、ステップＳ１９に進
み、ＳearchＰeaks(0)がピッチとされる。一方、この条
件を満たさない場合は、ステップＳ２０に進む。

【０１０９】ステップＳ２０では、「status1でないか
つ status2でない」という条件を満たすかどうかが判定
される。この条件を満たす場合は、ステップＳ２１に進
み、ＳearchＰeaks(2)がピッチとされる。一方、この条
件を満たさない場合は、ステップＳ２２に進む。

【０１１０】ステップＳ２２では、「status0 でない」
という条件を満たすかどうかが判定される。この条件を
満たす場合は、trkＰch＝pitch[0] がピッチとされる。
一方、この条件を満たさない場合は、ステップＳ２４に
進む。

【０１１１】ステップＳ２４では、「status1 でない」
という条件を満たすかどうかが判定される。この条件を
満たす場合は、trkＰch＝pitch[1] がピッチとされる。
一方、この条件を満たさない場合は、ステップＳ２６に
進む。

【０１１２】ステップＳ２６では、「status2 でない」
という条件を満たすかどうかが判定される。この条件を
満たす場合は、trkＰch＝pitch[2]がピッチとされる。
一方、この条件を満たさない場合は、ステップＳ２８に
進み、trkＰch＝rblＰchがピッチとされる。

【０１１３】また、前述したステップＳ１３では、関数
Ambiguous(pitch[2]，pitch[1]，0.11)の真偽が判定さ
れる。この関数が真となる場合は、ステップＳ１４に進
み、ＳearchＰeaks(0)がピッチとされる。一方、この関
数が偽となる場合は、ステップＳ１５に進む。

【０１１４】ステップＳ１５では、関数Ambiguous(pitc
h[0]，pitch[1]，0.11) の真偽が判定される。この関数
が真となる場合は、ステップＳ１６に進み、ＳearchＰe
aks(2)がピッチとされる。一方、この関数が偽となる場
合は、ステップＳ１７に進み、ＳearchＰeaks3Frms()が
ピッチとされる。

【０１１５】次に、前述したステップＳ２９では、「前
フレームがＵＶかつ高信頼性ピッチ情報が 0.0」とい
う条件を満たすかどうか判定される。この条件を満たさ
ない場合は後述するステップＳ３８に進む。一方、この
条件を満たす場合は、ステップＳ３０に進む。

【０１１６】ステップＳ３０では、 status0 ＝ Ambiguous(pitch[0]，rblＰch，0.11) status1 ＝ Ambiguous(pitch[2]，rblＰch，０．１１）を定義する。

【０１１７】そして、ステップＳ３１では、「ｓｔａｔ
ｕｓ０でないかつ status1でない」という条件を満た
すかどうかが判定される。この条件を満たす場合は、ス
テップＳ３２に進み、ＳearchＰeaks(2)がピッチとされ
る。一方、この条件を満たさない場合は、ステップＳ３
３に進む。

【０１１８】ステップＳ３３では、「status0 でない」
という条件を満たすかどうかが判定される。この条件を
満たす場合は、trkＰch＝pitch[1]がピッチとされる。
一方、この条件を満たさない場合は、ステップＳ３５に
進む。

【０１１９】ステップＳ３５では、「status1 でない」
という条件を満たすかどうかが判定される。この条件を
満たす場合は、trkＰch＝pitch[2] がピッチとされる。
一方、この条件を満たさない場合は、ステップＳ３７に
進み、trkＰch＝rblＰchがピッチとされる。

【０１２０】また、前述したステップＳ３８では、「前
フレームがＵＶでないかつ高信頼性ピッチ情報が 0.
0」という条件を満たすかどうか判定される。この条件
を満たさない場合はステップＳ４０に進み、ＳearchＰe
aks(2)がピッチとされる。一方、この条件を満たす場合
は、ステップＳ４０に進む。

【０１２１】ステップＳ４０では、関数Ambiguous(pitc
h[0]，pitch[2]，0.11) の真偽が判定される。この関数
が偽となる場合は、ステップＳ４１に進み、ＳearchＰe
aks3Frms()がピッチとされる。一方、この関数が真とな
る場合は、ステップＳ４２に進み、ＳearchＰeaks(0)が
ピッチとされる。

【０１２２】以上の手順により、高信頼性ピッチ情報を
用いたピッチ検出が行われる。

【０１２３】以上の具体例においては、高信頼性ピッチ
情報と共にＶ／ＵＶ判定結果を用いるピッチ検出の例を
説明したが、通常のピッチ検出にさらにＶ／ＵＶ判定結
果のみを用いる場合のピッチ検出の具体例について以下
説明する。

【０１２４】ここでは、現在以外の符号化単位（フレー
ム）のＶ／ＵＶ判定結果をもピッチ検出に用いるため
に、正規化自己相関ピーク値ｒ'(n)（０≦ｒ'(n)≦1.
0）ゼロクロス数ｎZero（０≦ｎZero＜160）フレーム平
均レベルlevの３つのパラメータのみからＶ／ＵＶ判定
を行う。

【０１２５】この３つのパラメータについて、それぞれ
有声音（Ｖ）らしさを次式のように計算する。

【０１２６】ｐＲp(rp) ＝ 1.0／｛1.0＋exp（-(rp−0.3／0.06)）｝・・・（１）ｐＮＺero(ｎZero) ＝ 1.0／｛exp（(ｎZero-70.0)／12.0）｝・・・（２）ｐＬev(lev) ＝ 1.0／｛1.0＋exp（-(lev−400.0／100.0)）｝・・・（３）そして、（１）〜（３）式を用いて、最終的な有声音
（Ｖ）らしさを次式のように定義する。

【０１２７】ｆ(ｎZero，rp，lev) ＝ｐＮＺero(ｎZero)×｛1.2×ｐＲp(rp)＋0.8×ｐＬev(lev)｝／2.0 ・・・（４）そして、ｆが０．５以上であれば有声音（Ｖ），ｆが
０．５より小さければ無声音（ＵＶ）と判定する。

【０１２８】次に、Ｖ／ＵＶ判定結果のみを用いるピッ
チ検出の具体的な手順を、図８のフローチャートを参照
しながら説明する。

【０１２９】ここで、prevＶＵＶは前フレームのＶ／Ｕ
Ｖ判定結果であり、その値が１のとき有声音（Ｖ）を表
し、その値が０のとき無声音（ＵＶ）を表す。

【０１３０】まず、ステップＳ５０で現在のフレームの
Ｖ／ＵＶ判定を行い、「判定結果prevＶＵＶの値が１で
あるか」、すなわち有声音であるかどうかを判断する。
ステップＳ５０で無声音と判断された場合は、ステップ
Ｓ５１に進みtrkＰch＝0.0がピッチとされる。一方、ス
テップＳ５０で有声音と判断された場合は、ステップＳ
５２に進む。

【０１３１】ステップＳ５２では、「過去フレームと未
来フレームとのＶ／ＵＶ判定結果が共に１であるか」、
すなわち共に有声音であるかどうかを判断する。これを
満足しない場合は、後述するステップＳ５３に進む。一
方、過去フレームと未来フレームとが共に有声音である
場合には、ステップＳ５４に進む。

【０１３２】ステップＳ５４では、２つのピッチpitch
[2]，pitch[1]および定数0.11との関係を示す関数Ambig
uos(pitch[2]，pitch[1]，0.11)の真偽が判定される。
そして、上記関数が真となる場合には、ステップＳ５５
に進み、trkＰch＝ＳearchＰeaks(0)、すなわちrp[1]≧
rp[0]もしくはrp[1]＞0.7であるとき pitch[1]とな
り、そうでないときcrntＬag(n)をｎ＝0，1，・・・と
順にサーチし、0.81×pitch[0]＜crntＬag(n)＜1.2×pi
tch[0]を最初に満たしたcrntＬag(n)とする。一方、Amb
iguos(pitch[0]，pitch[1]，0.11)が偽である場合は、
ステップＳ５６に進む。

【０１３３】ステップＳ５６では、２つのピッチpitch
[0]，pitch[1]および定数0.11との関係を示す関数Ambig
uos(pitch[0]，pitch[1]，0.11)の真偽が判定される。
そして、上記関数が真となる場合には、ステップＳ５７
に進み、trkＰch＝ＳearchＰeaks(2)とする。一方、Amb
iguos(pitch[0]，pitch[1]，0.11) が偽である場合は、
ステップＳ５８に進み、trkＰch＝ＳearchＰeaks3Fr
m()、すなわち、rp[0]，rp[1]，rp[2]を比較し、rp[1]
がrp[0]，rp[2]以上であるか、もしくは0.7 より大きい
ときpitch[1]となり、そうでないときは、自己相関ピー
ク値rp[0]，rp[2]が大きいフレームを参照フレームとし
て、上記ＳearchＰeaks(frm)と同じ操作を行う。

【０１３４】前述した、ステップＳ５３では、「過去フ
レームのＶ／ＵＶ判定結果が１であるか」、すなわち有
声音であるかどうかが判断される。過去フレームが有声
音である場合には、ステップＳ５９に進み、trkＰch＝
ＳearchＰeaks(0) がピッチとされる。一方、過去フレ
ームが無声音である場合には、ステップＳ６０に進む。

【０１３５】ステップＳ６０では、「未来フレームのＶ
／ＵＶ判定結果が１であるか」、すなわち有声音である
かどうかが判断される。未来フレームが有声音である場
合には、ステップＳ６１に進み、trkＰch＝ＳearchＰea
ks(0) がピッチとされる。一方、未来フレームが無声音
である場合には、ステップＳ６２に進みtrkＰch は現フ
レームのピッチpitch[1]がピッチとされる。

【０１３６】以上説明したＶ／ＵＶ判定結果をサンプル
音声のピッチ検出に適用した結果の一例を図９に示す。
横軸はフレーム数、縦軸はピッチを表している。

【０１３７】図９（ａ）は、従来のピッチ検出方法によ
る検出ピッチ軌跡を示している。また、図９（ｂ）は、
高信頼性ピッチ情報とＶ／ＵＶ判定結果を共に用いる本
発明に係るピッチ検出方法による検出ピッチ軌跡を示し
ている。

【０１３８】この結果から明らかなように、本発明に係
るピッチ検出方法は、音声信号の有声音（Ｖ）と判定さ
れた部分で高信頼性ピッチ情報を設定し、その値を所定
の時間、この例においては５フレーム間保持する。この
結果、例えば、図９（ａ）の１５０サンプル目付近に見
られるようなピッチが急に変化する部分でのピッチ誤検
出を起こすことがない。

【０１３９】以上説明したような信号符号化装置および
信号復号化装置は、例えば図１０および図１１に示すよ
うな携帯通信端末あるいは携帯電話機等に使用される音
声コーデックとして用いることができる。

【０１４０】すなわち、図１０は、上記図１、図３に示
したような構成を有する音声符号化部１６０を用いて成
る携帯端末の送信側構成を示している。この図１０のマ
イクロホン１６１で集音された音声信号は、アンプ１６
２で増幅され、Ａ／Ｄ（アナログ／ディジタル）変換器
１６３でディジタル信号に変換されて、音声符号化部１
６０に送られる。この音声符号化部１６０は、上述した
図１、図３に示すような構成を有しており、この入力端
子１０１に上記Ａ／Ｄ変換器１６３からのディジタル信
号が入力される。音声符号化部１６０では、上記図１、
図３と共に説明したような符号化処理が行われ、図１、
図３の各出力端子からの出力信号は、音声符号化部１６
０の出力信号として、伝送路符号化部１６４に送られ
る。伝送路符号化部１６４では、いわゆるチャネルコー
ディング処理が施され、その出力信号が変調回路１６５
に送られて変調され、Ｄ／Ａ（ディジタル／アナログ）
変換器１６６、ＲＦアンプ１６７を介して、アンテナ１
６８に送られる。

【０１４１】また、図１１は、上記図２に示したような
基本構成を有する音声復号化部２６０を用いて成る携帯
端末の受信側構成を示している。この図１１のアンテナ
２６１で受信された音声信号は、ＲＦアンプ２６２で増
幅され、Ａ／Ｄ（アナログ／ディジタル）変換器２６３
を介して、復調回路２６４に送られ、復調信号が伝送路
復号化部２６５に送られる。２６４からの出力信号は、
上記図２に示すような構成を有する音声復号化部２６０
に送られる。音声復号化部２６０では、上記図２に説明
したような復号化処理が施され、図２の出力端子２０１
からの出力信号が、音声復号化部２６０からの信号とし
てＤ／Ａ（ディジタル／アナログ）変換器２６６に送ら
れる。このＤ／Ａ変換器２６６からのアナログ音声信号
がスピーカ２６８に送られる。

【０１４２】なお、本発明は上記実施の形態のみに限定
されるものではなく、例えば上記図１、図３の音声分析
側（エンコード側）の構成や、図２の音声合成側（デコ
ード側）の構成については、各部をハードウェア的に記
載しているが、いわゆるＤＳＰ（ディジタル信号プロセ
ッサ）等を用いてソフトウェアプログラムにより実現す
ることも可能である。また、本発明の適用範囲は、伝送
や記録再生に限定されず、ピッチ変換やスピード変換、
規則音声合成、あるいは雑音抑圧のような種々の用途に
応用できることは勿論である。

【０１４３】なお、本発明は上記実施の形態のみに限定
されるものではなく、例えば上記図１、図３の音声分析
側（エンコーダ側）の構成については、各部をハードウ
ェア的に記載しているが、いわゆるＤＳＰ（ディジタル
信号プロセッサ）等を用いてソフトウェアプログラムに
より実現することも可能である。

【０１４４】さらに、本発明の適用範囲は、伝送や記録
再生に限定されず、ピッチ変換やスピード変換、規則音
声合成、あるいは雑音抑圧のような種々の用途に応用で
きることは勿論である。

【０１４５】

【発明の効果】以上説明したように、本発明のピッチ検
出方法によれば、ピッチサーチにより検出されたピッチ
情報と、入力音声信号の音声レベルと、上記入力音声信
号の自己相関ピーク値とに基づいて、上記ピッチ情報よ
りもピッチである可能性がより高い場合に真となる条件
を満足する高信頼性ピッチ情報を設定し、それに基づい
てピッチを決定するため、入力音声信号中のハーフピッ
チや倍ピッチを誤検出することなく高精度にピッチ検出
を行うことができる。

【０１４６】また、本発明の音声信号符号化方法および
装置によれば、上記の本発明のピッチ検出方法を適用
し、さらに、入力音声信号に対する有声音／無声音判定
結果に基づいて、入力音声信号の有声音部分に対しては
サイン波分析符号化を行い、無声音部分に対しては波形
符号化による符号化を行うようにしたため、効率よく、
しかもハーフピッチや倍ピッチを誤検出することなく高
精度の符号化を行うことができ、無声音部分でも鼻詰ま
り感のない明瞭度の高い再生音が得られ、有声音部分に
おいても自然な合成音を得ることができる。また、無声
音部と有声音部との遷移部分で異音等が発生することも
ない。

【図面の簡単な説明】

【図１】本発明に係る音声信号符号化方法の実施の形態
が適用される音声信号符号化装置の基本構成を示すブロ
ック図である。

【図２】本発明に係る音声信号復号化方法の実施の形態
が適用される音声信号復号化装置の基本構成を示すブロ
ック図である。

【図３】本発明の実施の形態となる音声信号符号化装置
のより具体的な構成を示すブロック図である。

【図４】高信頼性ピッチ情報が設定される手順を示すフ
ローチャートである。

【図５】高信頼性ピッチ情報がリセットされる手順を示
すフローチャートである。

【図６】図３の構成におけるピッチ検出の手順の一例を
示すフローチャートである。

【図７】図３の構成におけるピッチ検出の手順の一例を
示すフローチャートである。

【図８】図３の構成におけるピッチ検出の手順の別の一
例を示すフローチャートである。

【図９】図３の構成におけるピッチ検出結果を示す図で
ある。

【図１０】本発明の実施の形態となる音声信号符号化装
置が用いられる携帯端末の送信側構成を示すブロック図
である。

【図１１】本発明の実施の形態となる音声信号符号化装
置が用いられる携帯端末の受信側構成を示すブロック図
である。

【符号の説明】

１１０第１の符号化部、１１１ＬＰＣ逆フィルタ、
１１３ＬＰＣ分析・量子化部、１１４サイン波分析
符号化部、１１５Ｖ／ＵＶ判定部、１２０第２の符号
化部、１２１雑音符号帳、１２２重み付き合成フィ
ルタ、１２３減算器、１２４距離計算回路、１２５
聴覚重み付けフィルタ

Claims

【特許請求の範囲】

【請求項１】入力音声信号を時間軸上で所定の符号化
単位で区分し、その区分された各符号化単位の音声信号
の基本周期に相当するピッチを検出するピッチ検出方法
において、所定のピッチ検出条件のもとにピッチ情報の検出を行う
ピッチサーチ工程と、検出されたピッチ情報と、上記入力音声信号の音声レベ
ルと、上記入力音声信号の自己相関ピーク値とに基づい
て、上記ピッチ情報よりもピッチである可能性が高い場
合に真となる条件を満足する高信頼性ピッチ情報を設定
する工程と、設定された高信頼性ピッチ情報に基づいてピッチを決定
する工程とを有してなることを特徴とするピッチ検出方
法。
【請求項２】上記高信頼性ピッチ情報を設定する工程
では、高信頼性ピッチ情報候補値が設定され、この高信頼性ピッチ情報候補値に充分近いピッチが検出
されたとき高信頼性ピッチ情報候補値は更新され、そうでないときは上記高信頼性ピッチ情報候補値は棄却
され、上記高信頼性ピッチ情報候補値がある所定の時間保持さ
れたとき、高信頼性ピッチ情報が設定されることを特徴
とする請求項１記載のピッチ検出方法。
【請求項３】上記設定された高信頼性ピッチ情報は所
定時間保持され、上記高信頼性情報が次の符号化単位で検出されるピッチ
に充分近いときにはその値が更新され、上記所定時間内
に上記高信頼性ピッチ情報の更新が行われないときには
その値が棄却されることを特徴とする請求項１記載のピ
ッチ検出方法。
【請求項４】上記ピッチサーチ工程はオープンループ
による粗いピッチサーチを行う粗ピッチサーチ工程であ
り、上記決定されたピッチ情報に対してクローズドループに
よる高精度のピッチサーチを行うことを特徴とする請求
項１記載のピッチ検出方法。
【請求項５】入力音声信号を時間軸上で所定の符号化
単位で区分し、その区分された各符号化単位の音声信号
に符号化を行う音声信号符号化方法において、所定のピッチ検出条件のもとにピッチ情報の検出を行う
ピッチサーチ工程と、検出されたピッチ情報と、上記入力音声信号の音声レベ
ルと、上記入力音声信号の自己相関ピーク値とに基づい
て、上記ピッチ検出条件よりもピッチである可能性がよ
り高い場合に真となる条件を満足する高信頼性ピッチ情
報を設定する工程と、設定された高信頼性ピッチ情報に基づいてピッチを決定
する工程と、入力音声信号の短期予測残差を求める予測符号化工程
と、求められた短期予測残差に対してサイン波分析符号化を
施すサイン波分析符号化工程と、上記入力音声信号に対して波形符号化による符号化を施
す波形符号化工程と、上記入力音声信号に対して有声音／無声音判定を行う判
定工程とを有してなることを特徴とする音声信号符号化
方法。
【請求項６】入力音声信号を時間軸上で所定の符号化
単位で区分し、その区分された各符号化単位の音声信号
に対して符号化を行う音声信号符号化装置において、入力音声信号の短期予測残差を求める予測符号化手段
と、求められた短期予測残差に対してサイン波分析符号化を
施すサイン波分析符号化手段と、上記入力音声信号に対して波形符号化による符号化を施
す波形符号化手段と、上記入力音声信号に対して有声音／無声音判定を行う判
定手段と入力音声信号に対してピッチ検出を行ってピッチ情報を
求める手段と、検出されたピッチ情報に対して高信頼性ピッチ情報の設
定を行う手段とを有し、上記判定手段の判定結果に基づいて、有声音とされた符
号化単位に対しては上記サイン波分析符号化手段による
符号化出力を取り出し、無声音とされた符号化単位に対しては上記符号励起線形
予測符号化手段による符号化出力を取り出し、上記サイン波分析符号化手段による符号化出力は、上記
設定された高信頼性ピッチ情報に基づいてピッチが決定
されることを特徴とする音声信号符号化装置。