JP4782332B2 - 音声符号器における目標ビットレートを維持する方法および装置 - Google Patents

音声符号器における目標ビットレートを維持する方法および装置 Download PDF

Info

Publication number
JP4782332B2
JP4782332B2 JP2001511665A JP2001511665A JP4782332B2 JP 4782332 B2 JP4782332 B2 JP 4782332B2 JP 2001511665 A JP2001511665 A JP 2001511665A JP 2001511665 A JP2001511665 A JP 2001511665A JP 4782332 B2 JP4782332 B2 JP 4782332B2
Authority
JP
Japan
Prior art keywords
performance threshold
speech
value
speech encoder
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001511665A
Other languages
English (en)
Other versions
JP2003505723A5 (ja
JP2003505723A (ja
Inventor
マンジュナス、シャラス
デジャコ、アンドリュー・ピー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2003505723A publication Critical patent/JP2003505723A/ja
Publication of JP2003505723A5 publication Critical patent/JP2003505723A5/ja
Application granted granted Critical
Publication of JP4782332B2 publication Critical patent/JP4782332B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Detection And Correction Of Errors (AREA)

Description

【0001】
発明の背景
I.発明の分野
本発明は全般的に音声処理の分野に係り、なお特に音声符号器の目標ビットレートを維持する方法および装置に関する。
II.背景
デジタル技術による音声の伝送は、特に長距離かつデジタル無線電話応用において広く普及してきた。これは次に、再構成された音声の知覚された質を維持してチャンネルにより送られることができる情報の最小量を決定することに興味を起こした。音声が簡単にサンプリングおよびデジタル化により送信されるなら、1秒につき64キロバイト(kbps)のようなデータレートが通常のアナログ電話の音声の質を達成するために必要とされる。しかし、適当な符号化、送信および受信機での再合成により結果として生じる音声分析の使用を通して、データレートの重大な低下が成される。
【0002】
音声圧縮装置が遠距離通信の多くの分野で使用を見出す。例示的分野は無線通信である。無線通信の分野は、例えばコードレス電話、ページング、無線ローカルループ、セルラーおよびPCS電話システムのような無線電話、移動インターネットプロトコル(IP)電話、および衛星通信システムを含む多くの応用を有する。特に重要な応用は移動加入者のための無線通信である。
【0003】
種々の空中インタフェースは、例えば、周波数分割多重接続(FDMA)、時分割多重接続(TDMA)、および符号分割多重接続(CDMA)を含む無線通信システムのために開発された。それらと関連して、例えば、高度な移動電話サービス(AMPS)、移動通信のグローバルシステム(GSM)、および国際規格95(IS−95)を含む様々な国内的および国際的な規格が確立された。例示的無線電話通信システムは符号分割多重接続(CDMA)システムである。IS−95規格とその派生物、IS−95A、ANSI J-STD-008、IS−95B、提案された第三世代規格IS−95CおよびIS−2000等(IS−95としてここにまとめて引用される)は、米国電気通信工業会(TIA)およびセルラーまたはPCS電話通信システムのためにCDMA空中インターフェイスの使用を指定する他のよく知られた規格団体によって公表されている。IS−95規格の使用に従って実質的に構成された例示的無線通信システムは、本発明の譲受人に譲渡され、ここに引用文献として完全に組み込まれた米国特許No.5,103,459およびNo.4,901,307に記述される。
【0004】
人間の音声発生のモデルに関連するパラメタを引出すことによって音声圧縮技術を採用する装置は音声符号器と呼ばれる。音声符号器は入来音声信号を時間のブロック、即ち分析フレームに分割する。音声符号器は通常エンコーダとデコーダを備える。エンコーダはある関連パラメタを引出すために入来音声フレームを分析して、次に2進の表現、即ち、ビットの集団または2進データパケットにパラメタを量子化する。データパケットは受信器とデコーダへの通信チャネル上に送信される。デコーダはデータパケットを処理し、パラメタを作り出すためにそれらを不量子化して、不量子化されたパラメタを使用する音声フレームを再合成する。
【0005】
音声符号器の機能は音声の固有なすべての自然な冗長を取り除くことによって低ビットレート信号にデジタル化された音声信号を圧縮することである。デジタル圧縮は、一組のパラメタで入力音声フレームを表して、一組のビットでパラメタを表すために量子化を採用することによって達成される。入力音声フレームが多くのビットNを有し、音声符号器によって生成されるデータパケットが多くのビットNを有するなら、音声符号器によって達成される圧縮係数はC=N/Nである。目標圧縮係数を達成しながら復号音声の高い音声品質を保有することが挑戦である。音声符号器の性能は(1) 音声モデル、または上で説明した分析と合成の過程の組み合わせがどれくらいよく働くか、そして(2) パラメタ量子化過程が1フレームあたりのNビットの目標ビットレートでどれくらいよく実行されるかに依存する。かくして音声モデルの目標は各フレームについて小さい組みのパラメタで音声信号の本質、目標音声品質を獲得することである。
【0006】
音声符号器の設計において最も重要なことは、おそらく音声信号を記述する(ベクトルを含んでいる) パラメタの良い組を検索することである。良い組のパラメタは知覚的に正確な音声信号の再構成のために低いシステム帯域幅を必要とする。ピッチ、信号パワー、スペクトル包絡線(即ち、ホルマント)、振幅、およびフェーズスペクトルは音声コード化パラメタの例である。
【0007】
音声符号器は時間領域符号器として実行されるかもしれず、それは一度に音声の小さいセグメント(通常5ミリセカンド(ms)のサブフレーム)をコード化するために高い時間−解像度処理を採用することによって時間領域音声波形を獲得することを試みる。各サブフレームについて、コードブックスペースからの高精度見本が技術で知られている様々な検索アルゴリズムの手段によって見い出される。代わりに、音声符号器は周波数として実行されるかもしれず、それは一組のパラメタ(分析)で入力音声フレームの短期的な音声スペクトルを獲得することを試み、スペクトルパラメタから音声波形を再構成するために対応する合成過程を採用する。パラメタ量子化器は、A.Gersho&R.M.Gray著「ベクトル量子化および信号圧縮(1992)」で説明さてた公知の量子化技術に従ってコードベクトルの記憶された表現でそれらを表すことによってパラメタを保存する。
【0008】
周知の時間領域音声符号器は、L.B.RabinerとR.W.Schafer著の「音声信号のデジタル処理396-453(1978)」に記述された「符号励起線形予測(CELP) 符号器」であり、それは引用文献としてここに完全に組み込まれる。CELP符号器では、音声信号の短期間相関関係、または冗長が線形予測(LP)分析によって取り除かれ、それは短期的なホルマントフィルタの係数を見つける。短期的な予測フィルタを入来音声フレームに適用するとLP残余信号は発生し、それは長期予測フィルタパラメタとその後の確率的なコードブックでさらにモデル化されかつ量子化される。したがって、CELPコード化は時間領域音声波形をコード化するタスクをLPの短期的フィルタ係数にコード化することおよびLP残余にコード化することの別々のタスクに分割する。時間領域コード化は固定レート(即ち、各フレームに同じ数のヒット、Nを使用する)または可変レート(異なった型のフレーム内容に対し異なるビットレートが使用される)で実行することができる。可変レート符号器は、コーデックパラメタを目標品質を得るために適切なレベルにコード化するために必要とされるビットの量だけを使用するように試みる。例示的可変レートCELP符号器は米国特許No.5,414,796に記述され、それは本発明の譲受人に譲渡され引用文献としてここに組みこまれる。
【0009】
CELP符号器のような時間領域符号器は、時間領域音声波形の精度を保存するためにフレームにつき大きい数のビットNを通常当てにする。そのような符号器は、比較的大きいフレーム(例えば、8kbps以上)につきNビットの数を提供された優れた音声品質を通常引渡す。しかしながら、低ビットレート(4kbps以下)で、時間領域符号器は有効なビットの有限な数による高品質かつロバスト(robust)性能を保有しない。低ビットレートでは、限られたコードブックスペースは、より高いレートの商業応用であまりに首尾よく配備された通常の時間領域符号器の波形に合致している能力を切り取る。したがって、時間がたつにつれての改良にもかかわらず、低ビットレートで作動する多くのCELPコード化システムは雑音として通常特徴付けられる知覚的に重要なひずみに悩まされる。
【0010】
低ビットレート(即ち、2.4〜4kbps以下の範囲)で媒体で作動する高品質な音声符号器を開発する研究関心と強い商業的必要性のうねりが現に存在する。応用領域は無線電話、衛星通信、インターネット電話、様々なマルチメディアおよび音声ストリーミング応用、ボイスメール、および他の音声記憶システムを含んでいる。原動力は高い容量の必要性とパケット損失状況の下でのロバスト性能の要請である。様々な最近の音声コード化標準化の努力は低率音声コード化アルゴリズムの研究開発を推進する別の直接な原動力である。低レート音声符号器が許容できる応用帯域幅あたりの、より多くのチャンネル、またはユーザを創造して、適当なチャンネルコード化の付加的な層と結びつけられた低レート音声符号器は符号器仕様の総合的なビットバジェット(budget)に適合でき、チャンネルエラー状態の下でロバスト性能を引渡すことができる。
【0011】
低ビットレートで効率的に音声をコード化する1つの有効な技術はマルチモードコード化である。例示的マルチモードコード化の技術は1998年12月21日に出願され、本発明の譲受人に譲渡され、引用文献としてここに完全に組みこまれる「可変レート音声コード化」と題する米国出願シリーズNo.09/217,341で説明される。従来のマルチモード符号器は異なった型の入力音声フレームに異なったモード、またはコード化−デコード化アルゴリズムを適用する。各モード、またはコード化−デコード化過程が、例えば、有声の音声、無声の音声、遷移音声(例えば、有声と無声の間)、および最も効率的な方法でバックグラウンドノイズ(不音声)のようなある型の音声セグメントを最適に表すためにカストマイズされる。外部の、オープンループモード決定メカニズムは入力音声フレームを試験し、フレームに適用するようにモードに関して決定する。オープンループモード決定は入力フレームから多数のパラメタを引出し、ある時点のかつスペクトル特性に関してパラメタを評価し、評価に基づいているモード決定により通常実行される。かくしてモード決定は、あらかじめ出力音声の正確な状態を知らないで、即ち、音声品質または他の性能基準に関して出力音声が入力音声にどれくらい近いかでなされる。
【0012】
2.4kbps程度のレートで作動するコード化システムは一般に事実上パラメトリックである。即ち、そのようなコード化システムは、規則的な間隔で音声信号のピッチ期間とスペクトル包絡線(または、ホルマント)を記述するパラメタを伝達することよって作動する。これらのいわゆるパラメトリック符号器の説明に役立つのはLPボコーダシステムである。
【0013】
LPボコーダはピッチ期間あたり単一パルスで有声な音声信号をモデル化する。この基本的な技術は、数ある中でスペクトル包絡線に関する伝送情報を含むように増大するかもしれない。LPボコーダは一般に妥当な性能を提供するが、それらは騒音として通常特徴付けられる知覚的な重要なひずみを導入するかもしれない。
【0014】
近年、波形符号器とパラメトリック符号器の両方のハイブリッドである符号器が現れた。これらのいわゆるハイブリッド符号器の説明に役立つのは、原型波形補間(PWI)音声コード化システムである。また、PWIコード化システムは原型ピッチ期間(PPP)音声符号器として知られているかもしれない。PWIコード化システムはコード化の有声な音声のための効率的な方法を提供する。PWIの基本概念は固定間隔で、代表的なピッチサイクル(原型波形)を抽出し、その記述を伝達し、原型波形の間で補間することによって音声信号を再構成することである。PWI方法はLP残余信号または音声信号のいずれかを作動させるかもしれない。例示的PWIまたはPPP音声符号器は、1998年12月21日に出願され、本発明の譲受人に譲渡され、引用文献としてここに完全に組みこまれた「周期的な音声コード化」と題する米国出願シリーズNo.09/217,494で説明される。他のPWIまたはPPP音声符号器が米国特許No.5,884,253、およびW.Bastiaan KleijnとWolfgang Granzow著「1デジタル信号処理で音声コード化における波形補間の方法」215-230(1991)で説明される。
【0015】
従来の低ビットレート、可変レート音声符号器は低いコード化レートからより高いコード化レートにいつ切り換わるかを決定するためにフレームエネルギーに基づくオープンループコード化モード決定を採用する。これは、音声符号器が異なったクラスの音声の存在を利用して、異なったレートでそれらをコード化することを許可する。しかしながら、オープンループの分類によって決められるレートでのコード化は特定のフレームへの不十分または平凡な品質をもたらすかもしれない。従って、オープンループ決定の効率を高めることは有利であるだろう。与えられたフレームについてコード化レートを変える(即ち、必要なら増加する)ために品質の推定を使用するのは望ましいだろう。しかしながら、フレームについてコード化レートを増加させることは、音声符号器のための平均コード化レートを変化する(増加する)だろう。したがって、オープンループ分類によって決められるそれらからフレームごとの基準のコード化レートにおいて偏差を許容している間、一定平均ビットレートを維持する音声符号器を提供することはさらに有利であるだろう。音声符号器のために特定の目標平均レートにするのがさらに望ましいであろう。音声符号器のために目標の総合的なビットレートを維持するのはさらに有利であるだろう。したがって、最適な音声品質を与えるために閉ループ決定過程でコード化モード決定を改良し、目標コード化ビットレートを維持する音声符号器の必要性がある。
【0016】
発明の概要
本発明は目標コード化ビットレートを維持しながら最適の音声品質を与えるように閉ループ決定過程でコード化モード決定を改良する音声符号器に向けられる。従って、発明の1つの態様として複数のフレームを可変コード化レートで符号化するように構成された音声符号器において、音声符号器の目標平均ビットレートを維持する方法は、予め選択されたコード化レートでフレームをコード化するステップを有利に含んでおり、それはコード化されたフレームの事前に定義された数について平均ビットレートを実行し、差の値を得るため事前に定義された目標平均ビットレートから実行平均ビットレートを引き算し、商の値を得るために予め選択されたコード化レートにより差の値を割算し、商の値がゼロ未満であるならば、第1の累算値を生成するため音声符号器性能閾値の可能な発生計数を生成するために現在の性能閾値よりも小さい音声符号器性能閾値の第1の事前に定義された数の可能な発生計数を累算し、音声符号器性能閾値の事前に定義された数の発生計数は第1の累算された値が商の値の絶対値よりも大きいように選択され、商の値がゼロ未満であるならば、新しい性能閾値を得るために現在の性能閾値から音声符号器性能閾値発生計数値あたりの減少分と音声符号器性能閾値の第1の事前に定義された数の発生計数の積を引算し、商の値がゼロ以上であるならば、第2の累算された値を生成するため現在の性能閾値よりも大きい音声符号器性能閾値の第2の事前に定義された数の可能な発生計数を累算し、音声符号器性能閾値の事前に定義された数の発生計数は第2の累算された値が商の値よりも大きいように選択され、商の値がゼロ以上であるなら、新しい性能閾値を得るために現在の性能閾値に音声符号器性能閾値発生計数値あたりの増加分と音声符号器性能閾値の第2の事前に定義された数の発生計数の積を加算することを含む。
【0017】
発明の別の態様において、符号器は予め選択されたコード化レートでフレームをコード化する手段と、事前に定義された数のコード化されたフレームについて実行平均ビットレートを計算する手段と、差の値を得るために事前に定義された目標平均ビットレートから実行平均ビットレートを引き算する手段と、商の値を得るために予め選択されたコード化レートにより差の値を割算する手段と、音声符号器性能閾値の事前に定義された数の発生計数は第1の累算された値が商の値の絶対値よりも大きいように選択され、第1の累算値を生成するため現在の性能閾値より小さい音声符号器性能閾値の第1の事前に定義された数の可能な発生計数を累算する手段と、商の値がゼロ未満であるならば、新しい性能閾値を得るために現在の性能閾値から音声符号器性能閾値発生計数値あたりの減少分と音声符号器性能閾値の第1の事前に定義された数の発生計数の積を引算する手段と、音声符号器性能閾値の事前に定義された数の発生計数は第2の累算された値が商の値よりも大きいように選択され、第2の累算された値を生成するため現在の性能閾値よりも大きい音声符号器性能閾値の第2の事前に定義された数の可能な発生計数を累算する手段と、商の値がゼロ以上であるなら、新しい性能閾値を得るために現在の性能閾値に音声符号器性能閾値発生計数値あたりの増加分と音声符号器性能閾値の第2の事前に定義された数の発生計数の積を加算する手段とを有利に含む。
【0018】
発明の別の態様において、音声符号器は複数のフレームを分析するように構成された分析モジュールと、分析モジュールに結合されかつ分析モジュールにより発生されたフレームパラメタをコード化するように構成された量子化モジュールとを含み、量子化モジュールはさらに予め選択されたコード化レートでフレームをコード化し、コード化されたフレームの事前に定義された数について実行平均ビットレートを計算し、差の値を得るため事前に定義された目標平均ビットレートから実行平均ビットレートを引き算し、商の値を得るため予め選択されたコード化レートにより差の値を割算し、音声符号器性能閾値の事前に定義された数の発生計数は第1の累算された値が商の値の絶対値よりも大きいように選択され、第1の累算値を生成するため現在の性能閾値より小さい音声符号器性能閾値の第1の事前に定義された数の可能な発生計数を累算し、商の値がゼロ未満であるならば、新しい性能閾値を得るために現在の性能閾値から音声符号器性能閾値発生計数値あたりの減少分と音声符号器性能閾値の第1の事前に定義された数の発生計数の積を引算し、音声符号器性能閾値の事前に定義された数の発生計数は第2の累算された値が商の値よりも大きいように選択され、第2の累算された値を生成するため現在の性能閾値よりも大きい音声符号器性能閾値の第2の事前に定義された数の可能な発生計数を累算し、商の値がゼロ以上であるなら、新しい性能閾値を得るために現在の性能閾値に音声符号器性能閾値発生計数値あたりの増加分と音声符号器性能閾値の第2の事前に定義された数の発生計数の積を加算するように構成される。
【0019】
好ましい実施例の詳細な記述
以下に記述される例示的実施例はCDMA空中インタフェースを採用するために構成された無線電話通信システムにある。それにもかかわらず、技術に熟練した者に理解されるように、本発明の特徴を具体化するサブサンプリング方法と装置は技術に熟練した者に知られた広範囲の技術を使う様々な通信システムのいずれにも属する。
【0020】
図1に示されるように、CDMA無線電信システムは複数の移動加入者ユニット10、複数の基地局12、基地局制御器(BSC)14、および移動交換センター(MSC)16を含んでいる。MSC 16は通常の公衆電話交換ネットワーク(PSTN)18とインターフェイスするように構成される。またMSC16はBSC14にインターフェイスするように構成される。BSC14は迂回中継線を通して基地局12と結合される。迂回中継線は例えばE1/T1、ATM、IP、PPP、フレームリレー、HDSL、ADSL、またはxDSLを含むいくつかの知られているインタフェースの何れかを支持するように構成されてもよい。2以上BSC14がシステムにあるかもしれないことが理解される。それぞれの基地局12は少なくとも1つのセクター(示されない)に都合よく含まれ、各セクターが無指向性アンテナまたは基地局12から放射状に遠くの特定の方向に位置付けられたアンテナを備えている。代わりに、各セクターは多様性受信のための2個のアンテナを含んでもよい。それぞれの基地局12は、複数の周波数割当てを支持するように都合よく設計されるかもしれない。セクターの交線と周波数割当てはCDMAチャンネルと呼ばれるかもしれない。また、基地局12は基地局トランシーバーサブシステム(BTS)12として知られているかもしれない。代わりに、「基地局」は、BSC14と1つ以上のBTS12に集合的に引用するために産業上使用されるかもしれない。また、BTS12は表示された「セルサイト」12であるかもしれない。代わりに、与えられたBTS12の個々のセクターはセルサイトと呼ばれるかもしれない。移動加入者ユニット10は典型的にセルラーまたはPCS電話10である。システムはIS-95規格に従って使用のために都合よく構成される。
【0021】
携帯電話システムの典型的な操作の間、基地局12は移動ユニット10の組から逆方向リンク信号の組を受ける。移動ユニット10は電話コールまたは他の通信を伝導している。与えられた基地局12によって受信される各逆方向リンク信号はその基地局12内で処理される。結果として起こるデータはBSC14に転送される。BSC14は基地局12間でソフトハンドオフの結集を含むコールリソース配分と移動性管理機能性を提供する。また、BSC14は受信されたデータをMSC16に発送し、MSC16はPSTN18とインタフェイスのために付加的なルーティングサービスに提供する。同様に、PSTN18はMSC16とインターフェイスし、MSC16はBSC14とインタフェイスし、BSC14は順方向リンク信号の組を移動ユニット10の組に順次伝送するために基地局12を制御する。
【0022】
図2において、第1のエンコーダ100がデジタル化された音声サンプルs(n)を受け、第1のデコーダ104へ伝送媒体102、即ち通信チャネル102で伝送のためにサンプルs(n)をコード化する。デコーダ104はコード化された音声サンプルを復号して出力音声信号sSYNTH(n)を合成する。逆方向への伝送のために、第2のエンコーダ106がデジタル化された音声サンプルs(n)をコード化し、それは通信チャネル108で伝送される。第2のデコーダ110はコード化された音声サンプルを受信して復号し、合成出力音声信号sSYNTH(n)を発生させる。
【0023】
音声サンプルs(n)は、例えば、パルス符号変調(PCM)、圧縮μ-法、またはA-法を含む技術で知られている様々な方法のいずれかに従ってデジタル化されかつ量子化された音声信号を表す。技術で知られているように、音声サンプルs(n)は入力データのフレーム内に組織化され、各フレームがデジタル化された音声サンプルs(n)の予め決定された数を含む。例示的実施例では、8kHzのサンプリングレートは160個のサンプルを含むそれぞれ20msフレームで採用される。以下で説明される実施例では、データ伝送のレートはフレームからフレーム基準で13.2kbps(完全なレート)から6.2kbps(半分のレート)、2.6kbps(4分の1のレート)、1kbps(8分の1のレート)へ都合よく変えられるかもしれない。低いビットレートが比較的少ない音声情報を含むフレームに選択的に使われるかもしれないので、データ伝送レートの変更は有利である。技術に熟練した者に理解されるように、他のサンプリングレート、フレームサイズ、およびデータ伝送レートが使用されてもよい。
【0024】
第1のエンコーダ100と第2のデコーダ110は第1の音声符号器または音声コーデックを一緒に含む。音声符号器は例えば、加入者ユニット、図1を参照して上述されたBTS、またはBSCを含む送信音声信号のための任意の通信装置で使用することができる。同様に、第2のエンコーダ106と第1のデコーダ104は第2の音声符号器を一緒に含む。技能に熟練した者に理解されるように、音声符号器はディジタル信号プロセッサ(DPS)、特定用途向け集積回路(ASIC)、ディスクリートゲート論理、ファームウェア、または任意の通常のプログラマブルソフトウェアモジュールとマイクロプロセッサで実行されもよい。ソフトウェアモジュールはRAMメモリ、フラッシュメモリ、レジスタ、または技術で知られているいかなる他の形式の書き込み可能な記憶媒体に存在することができる。代わりに、任意の通常のプロセッサ、コントローラ、または状態マシンもマイクロプロセッサのために代用することができる。特に音声コード化のために設計された例示的ASICは本発明の譲受人に譲渡され、引用文献としてここに完全に組みこまれた米国特許No.5,727,123と、1998年7月28日に出願され、本発明の譲受人に譲渡されて、引用文献としてここに完全に組みこまれた「ボコーダASIC」と題する米国特許No.5,784,532で説明される。
【0025】
図3において、音声符号器で使用されるエンコーダ200はモード決定モジュール202、ピッチ推定モジュール204、LP分析モジュール206、LP分析フィルタ208、LP量子化モジュール210、および残余量子化モジュール212を含んでいる。入力音声フレームs(n)はモード決定モジュール202、ピッチ推定モジュール204、LP分析モジュール206、およびLP分析フィルタ208に供給される。モード決定モジュール202はモードインデックスIおよび周期性に基づくモードM、それぞれの入力音声フレームs(n)の他の特徴の中のエネルギー、信号対ノイズ比(SNR)、またはゼロ交叉レートを生成する。周期性に従って音声フレームを分類する様々な方法は米国特許No.5,911,128に記述され、それは本発明の譲受人に譲渡され引用文献としてここに完全に組みこまれる。また、そのような方法は電気通信工業会の工業暫定規格TIA/EIA IS-127とTIA/EIA IS-733に組み入れられる。例示的モード決定案は前述の米国出願シリーズNo.09/217,341のも記述されている。
【0026】
Figure 0004782332
【0027】
Figure 0004782332
【0028】
図3のエンコーダ200および図4のデコーダ300の様々なモジュールの作動と実施は技術において知られており、前述の米国特許No.5,414,796、およびL.B.Rabiner、およびR.W.Schafer著「音声信号のデジタル処理」396-453(1978)に記述される。
【0029】
図5のフローチャートで示されたように、一実施例による音声符号器は伝送のための処理音声サンプルの一組のステップに従う。ステップ400では、音声符号器は連続したフレームにおける音声信号のデジタルサンプルを受信する。与えられたフレームを受け取ると、音声符号器はステップ402に進む。ステップ402において、音声符号器はフレームのエネルギーを検出する。エネルギーはフレームの音声活力の尺度である。音声検出は、デジタル化された音声サンプルの振幅の2乗を合計し、閾値に対して結果のエネルギーを比較することによって実行される。一実施例では、閾値はバックグラウンド雑音の変化しているレベルに基づいて適合される。例示的可変閾値音声活力検出器は前述の米国特許No.5,414,796に記述される。いくらかの無声の音声音がバックグラウンド雑音として誤ってコード化される極めて低エネルギーサンプルであり得る。これが起こるのを防ぐために、前述の米国特許No.5,414,796で説明されるように低エネルギーサンプルのスペクトル傾斜がバックグラウンド雑音からの無声の音声を区別するのに使用されてもよい。
【0030】
フレームのエネルギーを検出した後に、音声符号器はステップ404に進む。ステップ404では、音声符号器は検出されたフレームエネルギーが音声情報を含むとしてフレームを分類するために十分であるかどうか決定する。検出されたフレームエネルギーが事前に定義された閾値を下回るならば、音声符号器はステップ406に進む。ステップ406において、音声符号器はバックグラウンド雑音(即ち、不音声または沈黙)としてフレームをコード化する。一実施例では、バックグラウンド雑音フレームは1/8レート、即ち1kbpsでコード化される。ステップ404において検出されたフレームエネルギーが事前に定義された閾値レベルと合致するか超えるならば、フレームは音声として分類され、音声符号器はステップ408に進む。
【0031】
ステップ408において、音声符号器はフレームが無声の音声であるか否かを決定する、即ち、音声符号器はフレームの周期性を試験する。周期性決断の種々の知られている方法は、例えば、ゼロ交叉の使用および正規化された自動相関関数(NACF)の使用を含む。特に、周期性を検出するためにゼロ交叉とNACFを使用することは前述の米国特許No.5,911,128のおよび米国特許出願シリーズNo.09/217,341で説明される。さらに、無声の音声から有声な音声を区別するために使用される上記の方法は、電気通信工業会の暫定規格TIA/EIA IS-127とTIA/EIA IS-733に組み入れられている。フレームがステップ408において無声の音声であると決定されるなら、音声符号器はステップ410へ進む。ステップ410では、音声符号器は無声の音声としてフレームをコード化する。一実施例では、無声の音声フレームは4分の1のレート、即ち2.6kbpsでコード化される。ステップ408においてフレームが無声の音声であることを決定しないならば、音声符号器はステップ412に進む。
【0032】
ステップ412では、音声符号器は、例えば、前述の米国特許No.5,911,128に記述されたように技術で知られた周期性検出方法を使用して、フレームが遷移音声であるかどうかを決定する。フレームが遷移音声であると決定されるなら、音声符号器はステップ414に進む。ステップ414において、フレームは遷移音声(即ち、無声の音声から有声の音声までの遷移)としてコード化される。一実施例において、遷移音声フレームは多重補間コード化方法によって符号化され、それは1999年5月7日に出願され、本発明の譲受人に譲渡され、ここに引用文献として完全に組み込まれた「遷移音声フレームの多重補間コード化」と題する米国特許出願シリーズNo.09/307,294に記述される。別の実施例では、遷移音声フレームは完全なレート、即ち13.2kbpsでコード化される。
【0033】
ステップ412で音声符号器はフレームが遷移音声でないと決定するならば、音声符号器はステップ416に進む。ステップ416では、音声符号器は有声な音声としてフレームをコード化する。一実施例では、有声な音声フレームは半分レート、即ち6.2kbpsでコード化されるかもしれない。また、完全なレート、即ち13.2kbps(または、8k CELP符号器の場合、完全なレート、8kbps)で有声な音声フレームをコード化することも可能である。しかしながら、技術に熟練した者は、有声フレームの安定状態の特質を利用することにより貴重な帯域幅を節約するために半分のレートで有声なフレームをコード化することが符号器に許容されることを認識するであろう。さらに、有声な音声を符号化するのに使用されるレートにかかわらず、有声な音声は過去のフレームからの情報を使用することで有利にコード化され、したがって、予測的にコード化されるべきであると言われている。
【0034】
熟練した者は、音声信号または対応するLP残余のいずれかが図5に示されたステップに従うことにより符号化されるかもしれないことを認識するであろう。雑音の波形特性、無声、遷移、および有声な音声は図6Aのグラフで時間の関数として見ることができる。雑音の波形特性、無声、遷移、および有声なLP残余を図6Bのグラフで時間の関数として見ることができる。
【0035】
図7に示されたように、一実施例では、原型ピッチ期間(PPP)音声符号器500は逆数フィルタ502、原型抽出器504、原型量子化器506、原型不量子化器508、補間/合成モジュール510、およびLPC合成モジュール512を含んでいる。音声符号器500はDPSの一部として都合よく実行されるかもしれず、例えば、PCSまたは携帯電話システムにおける加入者ユニットまたは基地局に、または衛星システムにおける加入者ユニットまたはゲートウェイに存在するかもしれない。
【0036】
音声符号器500において、デジタル化された音声信号s(n)、ここにnはフレーム番号である、は逆数LPフィルタ502に供給される。特定の実施例において、フレームの長さは20msである。逆数フィルタA(z)の伝達関数は以下の方程式によって計算される:
【数1】
A(z)=1−a−1−a−2−…−a―p
ここに係数aは知られている方法により選ばれた事前に定義た値を有するフィルタタップであり、前述の米国特許No.5,414,796および米国出願シリーズNo.09/217,494に記述されており、両方とも以前に引用文献としてここに完全に組み込まれる。数pは逆数LPフィルタ502が予測目的のために使用する前のサンプルの数を示す。特定の実施例では、pは10に設定される。
【0037】
逆数フィルタ502はLP残余信号r(n)を原型抽出器504に供給する。原型抽出器504は現在のフレームから原型を抽出する。原型は、デコーダでLP残余信号を再構成するためフレーム内に同様に位置付けられた前のフレームから原型を用いる補間/合成モジュール510によって直線的に補間される現在のフレームの一部である。
【0038】
原型抽出器504は原型を原型量子化器506に供給し、それは技術で知られている様々な量子化技術のいずれかに従って原型を量子化するかもしれない。調査表(示されない)から得られるかもしれない量子化された値は、チャンネルの上を伝送するため遅れと他のコードブックパラメタを含むパケット内に組み立てられる。パケットは送信器(示されない)に提供され、受信器(また、示されない)へチャンネル上で伝送される。逆数LPフィルタ502、原型抽出器504、および原型量子化器506は現在のフレームのPPP分析を実行したと言われる。
【0039】
受信器はパケットを受信し、パケットを原型不量子化器508に供給する。種々の知られている技術のいずれかに従って、原型不量子化器508がパケットを不量子化する。原型不量子化器508は不量子化された原型を補間/合成モジュール510に供給する。補間/合成モジュール510は、現在のフレームのためLP残余信号を再構成するためにフレーム内に同様に位置付けられた前のフレームからの原型で原型を補間する。補間とフレーム合成は、米国特許No.5,884,253と前述の米国特許出願シリーズNo.09/217,494に記述される知られている方法によって有利に達成される。
【0040】
Figure 0004782332
【0041】
一実施例において図7のPPP音声符号器500のような音声符号器は、音声符号器のために目標平均ビットレートを維持している間、閉ループコード化性能基準をそれぞれのコード化されたフレームに適用する。音声符号器はPPP音声符号器、またはフレーム基準あたりコード化レートを増加させることによって音声品質を改良することができるいかなる他のタイプの低ビットレート音声符号器であってもよい。
【0042】
音声フレーム(一実施例では、フレームは20msの音声のセグメントを含む)のオープンループの分類の後に、音声フレームは予め選択されたレートRpを使用してコード化される。閉ループ性能試験はそれから実行される。エンコーダ性能基準は予め選択されたレートRpを使用して全部または部分的なコード化の後に得られる。関連技術としてよく知られている例示的性能基準は、例えば、信号対雑音比(SNR)、PPP音声符号器のようなコード化案におけるSNR予測、予測誤差量子化SNR、位相量子化SNR、振幅量子化SNR、知覚SNR、および定常性の基準としての現在および過去のフレーム間の正規化された相互相関を含む。性能基準PNMが閾値PNMTHを下回るならば、コード化レートはコード化案がより良い品質を与えるために期待される値に変えられる。通常、これはコード化レートの変化が増加であることを意味する。可変レート音声符号器の品質を維持する例示的閉ループ分類案は1998年11月13日に出願され、本発明の譲受人に譲渡されて、引用文献としてここに完全に組みこまれる「閉ループ可変レートマルチモード予測音声符号器」と題する米国出願シリーズNo.09 / 191,643で説明される。
【0043】
また、性能基準PNMは閾値PNMTHの現在の値に関して閾値のヒストグラムを更新するのに有利に使用される。ヒストグラムは以下の方法で音声符号器のための平均ビットレートの全体的な制御を実行するために使用される。音声符号器はWフレームの窓を超える実行平均ビットレートを計算し、Wフレームの後に実行平均ビットレートをゼロにリセットし、次のWフレームのために実行平均ビットレートを再計算する。W-フレーム期間の終わりに、平均ビットレートは目標平均ビットレートAVRから引き算され、差が最初の予め選択されたコード化レート値Rpにより割算される。
【0044】
割算AVR/Rpの商NRが正であるならば、第1のBRビンのためのヒストグラム値、またはPNM_TH(即ち、閾値より高いコード化レートに関連づけられる第1のBRビン)の右のヒストグラムバー幅が累算される。累算された値がNRよりも大きいようにBRの値が有利に選ばれる。それから閾値PNM_THは積DTH_HI*BRと等しい量だけ増加され、ここにDTH_HIがビン毎の増加分の量である。DYH_HIが最初に適当な値に初期化されることが注意されるべきである。そのような適当な値の1つは(MAXTH−PNM_TH)/HBである(パラメタは以下で定義される)。
【0045】
商NRが負であるならば、PNM_THの左の第1のBLビンのためのヒストグラム値が累算される。BLの値は累算された値が-NRよりも大きいように有利に選ばれる。それから、閾値PNM_THは積DTH_LO*BLと等しい量だけ減少され、ここにDTH_LOはビン毎の減少分の量である。DTH_LOが適当な値に最初に初期化されることが注意されるべきである。そのような適当な値の1つは(PNM_TH−MIN_TH)/HBである(パラメタは以下に定義される)。
【0046】
性能閾値PNM_THは、最大および最小の値または推定値が知られているなら、それぞれ最大および最小値MAX_THおよびMIN_THに制限されることができる。都合よいことに、望まれているならばビン当りの減少分DTH_LOおよびビン当りの増加分DTH_HIはそれぞれ商の量(PNM_TH-MIN_TH)/HBおよび(MAX_TH-PNM_TH)/HBに更新され、ここにHBはヒストグラムにおけるビンの数の半分に等しい。音声符号器がW-フレーム窓に関して、目標平均ビットレートAVRに接近した平均ビットレートを維持して終わるとき、ヒストグラムの2HBビンのすべてのためのヒストグラム値は都合よくゼロにリセットされる。
【0047】
一実施例では、ヒストグラム値の更新は予め選択されたレートRpを使用してコード化する間に起る。これは以下の方法で達成される。まず第1にビンが更新される。閾値PNM_THの左のそれぞれのHBビンが閾値PNM_TH(閾値PNM_THはヒストグラムの中心に配置される)の左のi番目のビンのために差PNM_TH-DTH_LO*iの値と等しく設定される。閾値PNM_THの右のそれぞれのHBビンは閾値PNM_THの右のi番目のビンために合計PNM_TH+DTH_HI*iの値と等しく設定される。第2に、現在の性能基準値であるPNMを含むビンのヒストグラム値は1だけ増加される。
【0048】
図7のPPP音声符号器500のような音声符号器の一実施例において、音声符号器目標平均ビットレートを維持している間、各符号化されたフレームに閉ループコード化性能基準PNMを適用するために、図8のフローチャートによって示されたアルゴリズムステップを実行する。音声符号器はPPP音声符号器、またはフレーム基準あたりコード化レートを増加させることによって音声品質を改良することができる任意の他の型の低ビットレート音声符号器であってもよい。
【0049】
現在の音声フレームはフレームの内容のオープンループ分類に基づくレートRpでコード化される。そして、閉ループ試験は、音声コード化性能基準PNMが性能閾値PNM_THを下回るならば、コード化レートが増加されるようにフレームに適用される。次に閾値PNM__THが目標平均ビットレートAVRに、またはそれに接近して音声符号器の実行平均ビットレートを保つように以下の方法ステップに従って調整される。
【0050】
ステップ600において、音声符号器は長さWフレームの窓のために実行平均ビットレートを計算する。そして音声符号器はステップ602に進む。ステップ602では、音声符号器は商NR=(AVR−実行平均ビットレート)/Rpを計算する。そして音声符号器はステップ604に進む。ステップ604では音声符号器は、NRがゼロ以上であるかどうか決定する。NRがゼロ以上であるなら、音声符号器はステップ606へ進む。他方NRがゼロ以上でないならば、音声符号器はステップ608に進む。
【0051】
ステップ606では、音声符号器は累算された値がNRよりも大きくなるようにBRを選択してPNM_TH(ヒストグラムの中心にある) の右へ第1のBRヒストグラムビン値を累算する。そして音声符号器はステップ610に進む。ステップ610では、音声符号器はPNM__THをPNM_THとDTH_HI*BRの合計に等しく設定する、ここにDTH_HIはヒストグラムビンあたりの増加分の量と等しい。そして音声符号器はステップ612に進む。
【0052】
ステップ608では、音声符号器は、累算された値が-NRよりも大きくなるようにBLを選択して、第1のBLヒストグラムビン値をPNM_THの左に累算する。そして音声符号器はステップ614に進む。ステップ614において、音声符号器はPNM_THをPNM_THとDTH_LO*BRとの間の差に等しく設定する、ここにDTH_LOはヒストグラムビンあたりの減少量と等しい。そして音声符号器はステップ612に進む。
【0053】
PNM_THをそれぞれ最大および最小値、MAX_THおよびMIN_THにさせるステップは、望まれるならば、前のステップ612で実行されてもよい。さらに、それぞれ商の量(PNM_TH-MIN_TH) /HBおよび(MAX_TH-PNM_TH)/HBにビンDTH_LOあたりの減少とビンDTH_HIあたりの増加を更新するステップは、望まれるならば、前のステップ612で実行されてもよい、ここにHBはヒストグラムにおける半分のビンの数と等しい。また、DTH_HIおよびDTH_LOはそれぞれ(MAX_TH-PNM_TH)/HBおよび(PNM_TH-MIN_TH)/HBのような適当な値に最初に初期化されることが注意されるべきである。
【0054】
ステップ612では、音声符号器は2HBヒストグラムビンのすべてについてヒストグラム値をゼロにリセットする。そして音声符号器は次のWフレームの実行平均ビットレートを計算するためステップ600に戻る。
【0055】
一実施例において音声符号器は、各WフレームのためにレートRpで音声フレームのコード化の間にヒストグラムビンの値を更新するため、図9のフローチャートで示されたアルゴリズムステップを実行する。ステップ700において、音声符号器は閾値PNM_THの左のi番目のビンのためにすべてのヒストグラムビンを差PNM_TH-DTH_LO*iの値に等しいPNM_THの左に設定する。そして音声符号器はステップ702に進む。ステップ702において、音声符号器は閾値PNM_THの右のi番目のビンのためにすべてのヒストグラムビンを合計PNM_TH+DTH_HI*iの値と等しいPNM_THの右へ設定する。そして音声符号器はステップ704に進む。ステップ704において、 音声符号器は現在の性能基準であるPNMを含むヒストグラムビンの値を1だけ増加させる。
【0056】
かくして音声符号器の目標ビットレートを維持するための新規な方法および装置が記述された。技術に熟練した者に理解されるように、ここに開示された実施例と関連して記述された種々の説明に役立つ論理的なブロックとアルゴリズムステップがディジタル信号プロセッサ(DPS)、特定用途向け集積回路(ASIC)、ディスクリートゲート論理、例えばレジスタおよびFIFOのようなディスクリートハードウエア部品、一組のファームウェア命令を実行するプロセッサまたは任意の通常のプログラマブルソフトウェアモジュールとプロセッサで実施または実行されてもよい。プロセッサは好ましくはマイクロプロセッサでよいが、プロセッサは代わりに、任意の通常のプロセッサ、コントローラ、マイクロコントローラ、または状態マシンであってもよい。ソフトウェアモジュールはRAMメモリ、フラッシュメモリ、レジスタ、または技術で知られているいかなる他の形式の書き込み可能な記憶媒体に存在することができる。熟練した者は、上述の中に参照されたデータ、指示、命令、情報、信号、ビット、符号、およびチップが電圧、電流、電磁波、磁場または、粒子、光学分野または粒子、あるいはその組み合わせにより有利に表されることを認識するであろう。
【0057】
かくして本発明の好ましい実施例が示されかつ説明された。しかしながら、多くの変更が発明の精神または範囲から逸脱することなくここに記述された実施例に成されるかもしれないことは、技術に普通に熟練した者に明らかである。それ故、本発明は以下の請求項に従う以外に制限されるべきではない。
【図面の簡単な説明】
【図1】 無線電話システムのブロックダイアグラムである。
【図2】 音声符号器によって各端末で終端される通信チャネルのブロックダイアグラムである。
【図3】 エンコーダのブロックダイアグラムである。
【図4】 デコーダのブロックダイアグラムである。
【図5】 音声コード化決定過程を例証するフローチャートである。
【図6A】 音声信号振幅対時間のグラフである。
【図6B】 線形予測(LP)残余振幅対時間のグラフである。
【図7】 原型ピッチ期間(PPP)音声符号器のブロックダイアグラムである。
【図8】 音声符号器のための目標平均ビットレートを維持しながら閉ループコード化性能基準を各コードフレームに適用するため、図7の音声符号器のような音声符号器によって実行されるアルゴリズムステップを例証するフローチャートである。
【図9】 音声フレームのコード化の間ヒストグラムビンの値を更新するため音声符号器によって実行されるアルゴリズムステップを例証するフローチャートである。
【符号の説明】
502…逆数フィルタ 504…原型抽出器 506…原型量子化器 508…原型不量子化器 510…補間合成モジュール 512…LPC合成モジュール

Claims (33)

  1. 複数のフレームを可変コード化レートでコード化するように構成されている音声符号器において、音声符号器の目標平均ビットレートを維持する方法であって、前記方法は、
    予め選択されたコード化レートでフレームをコード化するステップと
    事前に定義された数のコード化されたフレームについて実行平均ビットレートを計算するステップと
    差の値を得るために、事前に定義された目標平均ビットレートから前記実行平均ビットレートを引算するステップと
    商の値を得るために、前記予め選択されたコード化レートによって前記差の値を割算するステップと
    前記商の値がゼロ未満であるならば、第1の累算値を生成するために、現在の性能閾値より小さい音声符号器性能閾値の第1の事前に定義された数の起こり得る発生計数を累算するステップであって、音声符号器性能閾値の前記事前に定義された数の発生計数は、前記第1の累算された値が前記商の値の絶対値より大きいように選択されるステップと
    前記商の値がゼロ未満であるならば、新しい性能閾値を得るために、前記現在の性能閾値から音声符号器性能閾値発生計数値あたりの減少分と音声符号器性能閾値の前記第1の事前に定義された数の発生計数との積を引算するステップと
    前記商の値がゼロ以上であるならば、第2の累算された値を生成するために、前記現在の性能閾値より大きい音声符号器性能閾値の第2の事前に定義された数の起こり得る発生計数を累算するステップであって、音声符号器性能閾値の事前に前記定義された数の発生計数は、前記第2の累算された値が前記商の値より大きいように選択されるステップと
    前記商の値がゼロ以上であるならば、新しい性能閾値を得るために、前記現在の性能閾値に、音声符号器性能閾値発生計数値あたりの増加分と音声符号器性能閾値の前記第2の事前に定義された数の発生計数の積を加算するステップと、
    前記音声符号器のコード化性能を前記新しい性能閾値と比較し、前記フレームのための音声符号器のコード化性能が前記新しい性能閾値を下回るならば、前記フレームのためのコード化レートを調整するステップと
    を含む方法。
  2. 前記調整ステップが、前記フレームの前記コード化レートを増加することを含む請求項の方法。
  3. 前記コード化ステップの間に、
    前記現在の性能閾値より小さい音声符号器性能閾値の各々の発生計数のために、音声符号器性能閾値発生計数値あたりの減少分と、音声符号器性能閾値の発生計数および現在の性能閾値の間の音声符号器性能閾値の発生計数の数に1をプラスした数との積を前記現在の性能閾値から引算し、および音声符号器性能閾値の前記発生計数を前記引算の結果に等しいように設定するステップと
    前記現在の性能閾値より大きい音声符号器性能閾値の各々の発生計数のために、音声符号器性能閾値発生計数値あたりの増加分と、音声符号器性能閾値の発生計数および現在の性能閾値の間の音声符号器性能閾値の発生計数の数に1をプラスした数との積を前記現在の性能閾値に加算し、および音声符号器性能閾値の前記発生計数を前記加算の結果に等しいように設定するステップと
    前記現在の音声符号器のコード化性能に対応する音声符号器性能閾値の前記発生計数を1だけ増加するステップと
    をさらに含む請求項の方法。
  4. 前記フレームのオープンループ分類から前記予め選択されたコード化レートを得るステップをさらに含む請求項1の方法。
  5. 前記現在の性能閾値を最大値にさせるステップをさらに含む請求項1の方法。
  6. 前記現在の性能閾値を最小値にさせるステップをさらに含む請求項1の方法。
  7. 前記音声符号器性能閾値発生計数値あたりの減少分および前記音声符号器性能閾値発生計数値あたりの増加分に初期値を割り当てるステップをさらに含む請求項1の方法。
  8. 前記加算ステップまたは前記減算ステップの何れかを実行した後、音声符号器性能閾値の発生計数のすべてをゼロにリセットするステップをさらに含む請求項1の方法。
  9. 前記フレームが、音声フレームである請求項1の方法。
  10. 前記フレームが、線形予測残余フレームである請求項1の方法。
  11. 前記音声符号器が、無線通信システムの加入者ユニットにある請求項1の方法。
  12. 予め選択されたコード化レートでフレームをコード化する手段と、
    事前に定義された数のコード化されたフレームについて実行平均ビットレートを計算する手段と、
    差の値を得るために、事前に定義された目標平均ビットレートから前記実行平均ビットレートを引算する手段と、
    商の値を得るために、予め選択されたコード化レートによって前記差の値を割算する手段と、
    第1の累算値を生成するために、現在の性能閾値より小さい音声符号器性能閾値の第1の事前に定義された数の起こり得る発生計数を累算する手段であって、音声符号器性能閾値の前記事前に定義された数の発生計数は、前記第1の累算された値が前記商の値の絶対値より大きいように選択される手段と
    前記商の値がゼロ未満であるならば、新しい性能閾値を得るために、前記現在の性能閾値から音声符号器性能閾値発生計数値あたりの減少分と音声符号器性能閾値の第1の事前に定義された数の発生計数との積を引算する手段と、
    第2の累算された値を生成するために、現在の性能閾値より大きい音声符号器性能閾値の第2の事前に定義された数の起こり得る発生計数を累算する手段であって、音声符号器性能閾値の前記事前に定義された数の発生計数は、前記第2の累算された値が前記商の値より大きいように選択される手段と
    前記商の値がゼロ以上であるならば、新しい性能閾値を得るために、前記現在の性能閾値に音声符号器性能閾値発生計数値あたりの増加分と音声符号器性能閾値の第2の事前に定義された数の発生計数との積を加算する手段と
    前記音声符号器のコード化性能を前記新しい性能閾値と比較し、前記フレームのための音声符号器のコード化性能が前記新しい性能閾値を下回るならば、前記フレームのためのコード化レートを調整する手段と
    を含む音声符号器。
  13. 前記調整する手段が、前記フレームの前記コード化レートを増加する手段を含む請求項12の音声符号器。
  14. 前記フレームのコード化の間に、前記現在の性能閾値より小さい音声符号器性能閾値の各々の発生計数のために、音声符号器性能閾値発生計数値あたりの減少分と、音声符号器性能閾値の発生計数および現在の性能閾値の間の音声符号器性能閾値の発生計数の数に1をプラスした数との積を現在の性能閾値から引算し、および音声符号器性能閾値の発生計数を引算の結果に等しいように設定する手段と、
    フレームのコード化の間に、現在の性能閾値より大きい音声符号器性能閾値の各々の発生計数のために、音声符号器性能閾値発生計数値あたりの増加分と、音声符号器性能閾値の発生計数および現在の性能閾値の間の音声符号器性能閾値の発生計数の数に1をプラスした数との積を現在の性能閾値に加算し、および音声符号器性能閾値の発生計数を加算の結果に等しいように設定する手段と、
    現在の音声符号器のコード化性能に対応する音声符号器性能閾値の発生計数を1だけ増加する手段と
    をさらに含む請求項12の音声符号器。
  15. フレームのオープンループ分類から予め選択されたコード化レートを得る手段をさらに含む請求項12の音声符号器。
  16. 現在の性能閾値を最大値にさせる手段をさらに含む請求項12の音声符号器。
  17. 現在の性能閾値を最小値にさせる手段をさらに含む請求項12の音声符号器。
  18. 音声符号器性能閾値発生計数値あたりの減少分および音声符号器性能閾値発生計数値あたりの増加分に初期値を割り当てる手段をさらに含む請求項12の音声符号器。
  19. 現在の性能閾値が、調整された後、音声符号器性能閾値の発生計数のすべてをゼロにリセットする手段をさらに含む請求項12の音声符号器。
  20. 前記フレームが、音声フレームである請求項12の音声符号器。
  21. 前記フレームが、線形予測残余フレームである請求項12の音声符号器。
  22. 前記音声符号器が、無線通信システムの加入者ユニットにある請求項12の音声符号器。
  23. 複数のフレームを分析するように構成されている分析モジュールと、
    前記分析モジュールに結合され、かつ、前記分析モジュールによって生成されるフレームパラメータをコード化するように構成されている量子化モジュールと
    を含む音声符号器であって、
    前記量子化モジュールは、さらに
    予め選択されたコード化レートでフレームをコード化することと、
    コード化されたフレームの事前に定義された数について実行平均ビットレートを計算することと、
    差の値を得るために、事前に定義された目標平均ビットレートから実行平均ビットレートを引算することと、
    商の値を得るために、予め選択されたコード化レートによって差の値を割算することと、
    第1の累算値を生成するために、現在の性能閾値より小さい音声符号器性能閾値の第1の事前に定義された数の起こり得る発生計数を累算することであって、音声符号器性能閾値の事前に定義された数の発生計数は第1の累算された値が商の値の絶対値より大きいように選択されることと
    商の値がゼロ未満であるならば、新しい性能閾値を得るために、現在の性能閾値から音声符号器性能閾値発生計数値あたりの減少分と音声符号器性能閾値の第1の事前に定義された数の発生計数との積を引算することと、
    第2の累算された値を生成するため現在の性能閾値より大きい音声符号器性能閾値の第2の事前に定義された数の起こり得る発生計数を累算することであって、音声符号器性能閾値の事前に定義された数の発生計数は第2の累算された値が商の値より大きいように選択されることと
    商の値がゼロ以上であるなら、新しい性能閾値を得るために現在の性能閾値に音声符号器性能閾値発生計数値あたりの増加分と音声符号器性能閾値の第2の事前に定義された数の発生計数との積を加算することと、
    前記音声符号器のコード化性能を前記新しい性能閾値と比較し、前記フレームのための音声符号器のコード化性能が前記新しい性能閾値を下回るならば、前記フレームのためのコード化レートを調整することと
    を行うように構成されている音声符号器。
  24. 前記コード化レートが、増加されることによって調整される請求項23の音声符号器。
  25. 前記量子化モジュールがさらに、
    フレームのコード化の間に、現在の性能閾値より小さい音声符号器性能閾値の各々の発生計数のために、音声符号器性能閾値発生計数値あたりの減少分と、音声符号器性能閾値の発生計数および現在の性能閾値の間の音声符号器性能閾値の発生計数の数に1をプラスした数との積を現在の性能閾値から引算し、および音声符号器性能閾値の発生計数を前記引算の結果に等しいように設定することと
    フレームのコード化の間に、現在の性能閾値より大きい音声符号器性能閾値の各々の発生計数のために、音声符号器性能閾値発生計数値あたりの増加分と、音声符号器性能閾値の発生計数および現在の性能閾値の間の音声符号器性能閾値の発生計数の数に1をプラスした数との積を現在の性能閾値に加算し、および音声符号器性能閾値の発生計数を加算の結果に等しいように設定することと
    現在の音声符号器のコード化性能に対応する音声符号器性能閾値の発生計数を1だけ増加することと
    を行うように構成されている請求項23の音声符号器。
  26. 量子化モジュールがさらに、フレームのオープンループ分類から予め選択されたコード化レートを得るように構成されている請求項23の音声符号器。
  27. 量子化モジュールがさらに、現在の性能閾値を最大値にさせるように構成されている請求項23の音声符号器。
  28. 量子化モジュールがさらに、現在の性能閾値を最小値にさせるように構成されている請求項23の音声符号器。
  29. 量子化モジュールがさらに、音声符号器性能閾値発生計数値あたりの減少分および音声符号器性能閾値発生計数値あたりの増加分に初期値を割り当てるように構成されている請求項23の音声符号器。
  30. 量子化モジュールがさらに、現在の性能閾値が調整された後、音声符号器性能閾値の発生計数のすべてをゼロにリセットするように構成されている請求項23の音声符号器。
  31. 前記フレームが、音声フレームである請求項23の音声符号器。
  32. 前記フレームが、線形予測残余フレームである請求項23の音声符号器。
  33. 前記音声符号器が、無線通信システムの加入者ユニットにある請求項23の音声符号器。
JP2001511665A 1999-07-19 2000-07-19 音声符号器における目標ビットレートを維持する方法および装置 Expired - Fee Related JP4782332B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/356,493 1999-07-19
US09/356,493 US6330532B1 (en) 1999-07-19 1999-07-19 Method and apparatus for maintaining a target bit rate in a speech coder
PCT/US2000/019670 WO2001006490A1 (en) 1999-07-19 2000-07-19 Method and apparatus for maintaining a target bit rate in a speech coder

Publications (3)

Publication Number Publication Date
JP2003505723A JP2003505723A (ja) 2003-02-12
JP2003505723A5 JP2003505723A5 (ja) 2007-09-13
JP4782332B2 true JP4782332B2 (ja) 2011-09-28

Family

ID=23401670

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001511665A Expired - Fee Related JP4782332B2 (ja) 1999-07-19 2000-07-19 音声符号器における目標ビットレートを維持する方法および装置

Country Status (12)

Country Link
US (1) US6330532B1 (ja)
EP (1) EP1214705B1 (ja)
JP (1) JP4782332B2 (ja)
KR (1) KR100754591B1 (ja)
CN (1) CN1161749C (ja)
AT (1) ATE288122T1 (ja)
AU (1) AU6112000A (ja)
BR (1) BR0012538A (ja)
DE (1) DE60017763T2 (ja)
ES (1) ES2240121T3 (ja)
HK (1) HK1045397B (ja)
WO (1) WO2001006490A1 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
EP1088304A1 (en) * 1999-04-05 2001-04-04 Hughes Electronics Corporation A frequency domain interpolative speech codec system
US6954727B1 (en) * 1999-05-28 2005-10-11 Koninklijke Philips Electronics N.V. Reducing artifact generation in a vocoder
US6658112B1 (en) * 1999-08-06 2003-12-02 General Dynamics Decision Systems, Inc. Voice decoder and method for detecting channel errors using spectral energy evolution
AU2002213447A1 (en) * 2000-11-30 2002-06-11 Arraycomm Llc Training sequence for a radio communications system
US8090577B2 (en) * 2002-08-08 2012-01-03 Qualcomm Incorported Bandwidth-adaptive quantization
GB0321093D0 (en) * 2003-09-09 2003-10-08 Nokia Corp Multi-rate coding
US7483701B2 (en) * 2005-02-11 2009-01-27 Cisco Technology, Inc. System and method for handling media in a seamless handoff environment
US7634413B1 (en) * 2005-02-25 2009-12-15 Apple Inc. Bitrate constrained variable bitrate audio encoding
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
US8090573B2 (en) * 2006-01-20 2012-01-03 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
US8032369B2 (en) * 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US8532984B2 (en) 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8780717B2 (en) * 2006-09-21 2014-07-15 General Instrument Corporation Video quality of service management and constrained fidelity constant bit rate video encoding systems and method
EP1918909B1 (en) * 2006-11-03 2010-07-07 Psytechnics Ltd Sampling error compensation
US8279889B2 (en) * 2007-01-04 2012-10-02 Qualcomm Incorporated Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US8560307B2 (en) * 2008-01-28 2013-10-15 Qualcomm Incorporated Systems, methods, and apparatus for context suppression using receivers
FR2944640A1 (fr) * 2009-04-17 2010-10-22 France Telecom Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal.
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
US9263054B2 (en) * 2013-02-21 2016-02-16 Qualcomm Incorporated Systems and methods for controlling an average encoding rate for speech signal encoding
US9437205B2 (en) * 2013-05-10 2016-09-06 Tencent Technology (Shenzhen) Company Limited Method, application, and device for audio signal transmission
US9953661B2 (en) * 2014-09-26 2018-04-24 Cirrus Logic Inc. Neural network voice activity detection employing running range normalization
US11817080B2 (en) * 2019-09-03 2023-11-14 Google Llc Using corrections, of predicted textual segments of spoken utterances, for training of on-device speech recognition model
GB2615236A (en) * 2020-09-25 2023-08-02 Apple Inc Higher order ambisonics encoding and decoding
CN117746872B (zh) * 2022-09-15 2025-12-26 抖音视界有限公司 音频编码方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10247098A (ja) * 1997-03-04 1998-09-14 Mitsubishi Electric Corp 可変レート音声符号化方法、可変レート音声復号化方法
JP2002530706A (ja) * 1998-11-13 2002-09-17 クゥアルコム・インコーポレイテッド 閉ループ可変速度マルチモード予測スピーチコーダ

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4901307A (en) 1986-10-17 1990-02-13 Qualcomm, Inc. Spread spectrum multiple access communication system using satellite or terrestrial repeaters
EP0725384A3 (en) * 1988-05-26 1996-12-27 Pacific Comm Sciences Inc Adaptive transform coding
US5103459B1 (en) 1990-06-25 1999-07-06 Qualcomm Inc System and method for generating signal waveforms in a cdma cellular telephone system
CA2483324C (en) 1991-06-11 2008-05-06 Qualcomm Incorporated Estimation of background noise in a variable rate vocoder
US5884253A (en) 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
US5784532A (en) 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
US5761636A (en) * 1994-03-09 1998-06-02 Motorola, Inc. Bit allocation method for improved audio quality perception using psychoacoustic parameters
TW271524B (ja) 1994-08-05 1996-03-01 Qualcomm Inc
US5668925A (en) * 1995-06-01 1997-09-16 Martin Marietta Corporation Low data rate speech encoder with mixed excitation
BR9804811A (pt) * 1997-04-07 1999-08-17 Koninkl Philips Electronics Nv Sistema de transmissÆo transmissor codificador de voz e processo de codifica-Æo de voz

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10247098A (ja) * 1997-03-04 1998-09-14 Mitsubishi Electric Corp 可変レート音声符号化方法、可変レート音声復号化方法
JP2002530706A (ja) * 1998-11-13 2002-09-17 クゥアルコム・インコーポレイテッド 閉ループ可変速度マルチモード予測スピーチコーダ

Also Published As

Publication number Publication date
EP1214705A1 (en) 2002-06-19
HK1045397A1 (en) 2002-11-22
AU6112000A (en) 2001-02-05
KR100754591B1 (ko) 2007-09-05
WO2001006490A1 (en) 2001-01-25
BR0012538A (pt) 2002-07-02
ATE288122T1 (de) 2005-02-15
HK1045397B (zh) 2005-04-22
DE60017763T2 (de) 2006-01-12
DE60017763D1 (de) 2005-03-03
EP1214705B1 (en) 2005-01-26
CN1161749C (zh) 2004-08-11
US6330532B1 (en) 2001-12-11
CN1361912A (zh) 2002-07-31
JP2003505723A (ja) 2003-02-12
KR20020013963A (ko) 2002-02-21
ES2240121T3 (es) 2005-10-16

Similar Documents

Publication Publication Date Title
JP4782332B2 (ja) 音声符号器における目標ビットレートを維持する方法および装置
JP4861271B2 (ja) 位相スペクトル情報をサブサンプリングする方法および装置
EP1204967B1 (en) Method and system for speech coding under frame erasure conditions
WO2001082289A2 (en) Frame erasure compensation method in a variable rate speech coder
KR100752797B1 (ko) 음성 코더에서 선 스펙트럼 정보 양자화법을 인터리빙하는 방법 및 장치
JP4860860B2 (ja) スピーチコーダにおいてフレームプロトタイプ間の線形位相シフトを計算するために周波数帯域を識別する方法および装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070718

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070718

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100406

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100706

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110607

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110707

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140715

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4782332

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees