JPH03211599A - 4.8kbpsの情報伝送速度を有する音声符号化/復号化器 - Google Patents

4.8kbpsの情報伝送速度を有する音声符号化/復号化器

Info

Publication number
JPH03211599A
JPH03211599A JP2333475A JP33347590A JPH03211599A JP H03211599 A JPH03211599 A JP H03211599A JP 2333475 A JP2333475 A JP 2333475A JP 33347590 A JP33347590 A JP 33347590A JP H03211599 A JPH03211599 A JP H03211599A
Authority
JP
Japan
Prior art keywords
vector
excitation
signal
speech
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2333475A
Other languages
English (en)
Inventor
Forrest F-T Tzeng
フォーレスト フェン‐ツァー チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Comsat Corp
Original Assignee
Comsat Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Comsat Corp filed Critical Comsat Corp
Publication of JPH03211599A publication Critical patent/JPH03211599A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms
    • G10L2019/0014Selection criteria for distances
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Time-Division Multiplex Systems (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [従来技術] 自動車等の移動通信、音声専用通信(電話帯音声)、秘
密音声等の技術分野において、4.8kbps以下の低
情報伝送速度(ビットレート)を有する高音質音声符号
・復号化処理が要求されている。しかし、このような低
情報伝送速度で高音質の音声を形成するための音声符号
化技術はいまだ開発されていない。2.4kbpsのビ
ットレートで駆動する米国合衆国規格のLPG−10で
も自然の音声を作り出すことはできない。1okbps
以上の高ビットレートで成功をおさめた音声符号化技術
も、4.8kbps以下の使用では完全に脱帽せざるを
得なかった。このような状況から、4.8kbpsでの
自然音声に近い音質を得るための新しい音声符号化処理
技術が要求されている。
低情報伝送速度(ビットレート)での高音質音声符号化
処理技術として合成分析法の使用が考えられる。これを
基に、符号化励振線形予測法(CELP)として知られ
る有効な音声符号化方法がシュロエダーとB、  S、
  エイタルにより提案された。この符号化励振線形予
測法は、音響、音声及び信号処理に関するI EEEイ
ンターナショナルコンファレンスの937−940ペー
ジのパ超低速ピットレー1・での高質音声”で述べられ
ている。
CELPは中間帯域と狭帯域では有効であることが分か
っている。  N=1f30のサンプル数を持つ各音声
フレーム中にし=4の励振サブフレームがあると仮定す
ると、このCELPにより原音声と識別できない程度の
音声を作り出すには、1024個の40次元ランダムガ
ウス型符号語からなる励振符号帳(コードブック)で十
分である。
[発明が解決しようとする課題] しかしこの方法を実際に利用するためには、いくつかの
問題が解決されなければならない。
第一に、基本的に、伝送されるパラメータのほとんどは
、励振信号を除いて符号化されないままになっていた。
さらに、パラメータ更新速度は高いものと仮定されてい
た。  従って、パラメータの正確な符号化と高速の更
新に対して十分なビット情報がない様な、低情報伝送速
度(低速ビットレート)を有する分野においては、10
24(itの励振符号語は不十分になる。また、完全符
号化CBLPの符号化/浚号化器により原音声と同一の
音質を得るためには、10kbpsに近い情報伝送速度
(ビットレート)が必要となる。
第二に、典型的なCELP符号化器はランダムガウス型
ベクトル、ラプラス型ベクトル、均一パルス型ベクトル
若しくはこれらの組み合わせたものを用いて励振符号帳
を作成していた。この符号帳から最良の励振ベクトルを
見つけだすために、完全探索、合成分析処理が利用され
ている。この方法の重大な欠点は、最良の励振ベクトル
を探索するのに極めて高度の計算が要求されていること
である。その結果、実時間処理に対して、最小のハード
ウェアを用いた場合、励振符号帳の大きさが例えば10
24以下に限定しなければならなくなる。
第三に、1024個の40次元ランダムガウス型符号語
を有する励振符号帳を用いた場合、1024x40=4
0960のメモリー容量がコンピュータに必要となる。
励振符号帳に要求されるこのメモリー容量は、すでに市
販されているほとんどのDSP(ディジタル信号処理)
用チツフの記憶容量を越えている。従って、CELP符
号化器のほとんどはより小さい大きさの励振符号帳を持
つように設計されねばならない。これによL、符号化器
の性能が、とりわけ無声音領域は制限されることになる
。従って符号化器の性能を高めるために、計算上の複雑
さ(メモリー容量の増加)を伴わずに符号帳の大きさを
増加する有効な方法が求められている。
上述したように、4.8kbps以2下の情報伝送速度
では、正確に励振表示するために必要な十分なビット情
報を得ることができない。CELP励振信号と、短項(
SHORT−TERM)及び長唄(LONG−TERM
)フィルター処理後の残差信号である理想的な励振信号
とを比較すると、無視できない程度の相違(ズレ)があ
る。従って、CELP符号化器を構成する要素の内、特
に重要な要素の設計には十分な考慮が必要となる。例え
ば、  短項(SHORT−TERM)フィルタの正確
な符号化処理は励振による補償不足ということから、重
要なものであることが知られている。さらに、 (更新
速度という点から要求される)長唄フィルターと(符号
帳の大きさという点から要求される)励振信号への適当
なビット情報の割当が、符号化器の性能を向上するため
に必要なものであることが分かっている。しかし、たと
え襟雑な符号化方法を用いたとしても、音質は依然改善
されないままである。
ICASSP、614−617ページのパ低ビットレー
トでの自然音声を作り出すためのLPC励振法の新しい
モデルパでB、  S、  エイタルトJ。
R,レムデにより提案されたマルチパルス励振法が線形
予測符号化器に有効なモデルであることが確かめられて
いる。このモデルは有声音と無声音両方に有効なもので
あL、しかも理想的な励振信号を極めて圧縮されたビッ
ト情報で表現可能となっている。従って、符号化という
観点からすれば、マルチパルス励振法は優れた励振信号
を作り出すことができる。しかしながら、典型的なスカ
ラー量子化法を用いた場合、必要とされる情報伝送速度
は1Okbps以上となる。情報伝送速度を下げるには
、例えば1.M、hランヌコソ、L。
B、アルメイダ及びJ、 M、  hリボレットによる
”周波数領域における高調波モデル化法を用いたボール
ゼロマルチパルス音声表示”(ICASSP、   P
P、  7. 8. 1−7.8.4.   1985
)で述べれているように、LPCスペクトルフィルター
により励振パルスの数を減らし、゛がっ/または、より
有効な符号化方法を利用しなげればならない。例えば、
A、ブゾ、A、  H,グレイ、R,M、  グレイ及
びJ、  P、  マーケットによる゛ベクトル量子化
に基づいた音声符号化法”(IEEE  Trans、
音響、音声及ヒ信号処11、pp、  5E32−57
4.1880年10月)で述べられているベクトル量子
化を直接的にマルチパルスベクトルに適応する方法は、
後者の一解決策である。しかしながら、適当な歪量を定
義し、マルチパルスベクトルの群からそれらの中心を求
めるといった幾つかの問題が低ビットレート領域でのマ
ルチパルス励振法の利用を妨げている。
従って、CELP符号化符号化/復合化器8kbpsで
の音声符号化に利用するためには、折衷的なシステム設
計と有効なパラメータ符号化技術が必要となる。
そこで、本発明は従来の音声符号化/f1号化器の上述
の欠点を解決するために成されたものであL、より詳細
には自然音声に近い音質を可能とした4、8kbpsの
情報伝送速度を有する音声符号化/復号化器を提供する
ことにある。
[課題を解決するための手段] これらの目的は以下で示される新規な特徴の少なくとも
一つを用いて達成される。
低情報伝送速度で音声符号化処理するためのパラメータ
を結合して最適化する反復法、米国合衆国規格LPC−
10で利用されている41−ビットスペクトルフィルタ
ー符号化法と同一の性能を有する26−ビットスペクト
ルフィルター符号化法、 励振符号帳だめの記憶容量の減少を達成するための、例
えば、励振信号として利用されるマルチパルスベクトル
を位置及び強度の符号語に分解する、分解マルチパルス
励振モデルの使用、中間帯域(例えば、7.2−9.6
kbps)での音声符号化処理へのマルチパルスベクト
ル符号化処理の適用、 記憶領域に対して過負荷なく性能を高めるための拡張マ
ルチパルス励振符号帳、 演算に対して過負荷なく性能を高めるために拡張励振符
号帳から最良の励振ベクトルを選択するための、動的重
み付け歪量を選択的に用いた、関連型高速探索法。
非影響性ピッチ合成器から取り除かれた余剰ビット情報
と励振信号を動的に割当て、利用すること、 改良された無音検出器、適応型後段フィルター(ポスト
フィルター)、及び自動利得制tmi閲、スペルトルフ
ィルター平滑化処理のための補間技術、 スペクトルフィルターの安定性(不動性)確認用の単純
方法、 ピッチ利得と励振利得のための特別に設計されたスカラ
ー量子化器、 再構成された音声の音質への寄与度を確かめるための、
ピッチ合成器と励振ベクトルの影響性(意義)を調べる
ためのマルチプル法、並びに最適の符号化/復号化器の
性能を得るための、ビット割当処理から見たシステム設
計。
[作用] 入力された音声信号をピッチ、ピッチ利得b、Ct、G
のような複数の符号化信号部に符号化する符号化装置装
置は、符号化信号部のうちのピッチ、ピッチ利fI4b
のような少なくとも第1の符号化信号部を発生するため
該入力音声信号に応答する第1の手段と、複数の符号化
信号部のうちc1、Qのような少なくとも第2の符号化
信号部を発生するため該入力音声信号と少なくとも該第
1の符号化信号部とに応答する第2の手段とを有してい
る。
ここで、第1の手段は、反復演算による最適化手段を有
しておL、この最適化手段は、第1工程から第5工程ま
でを実行する。即ち、第1工程では、励振信号が存在し
ないことを前提として第1の符号化信号部の最適値を決
定し、また最適値に対応する第1の出力を発生する。ま
た第2工程では第1の出力に基づき第2の符号化信号部
の最適値を決定し、また最適値に対応する第2の出力を
発生する。次に第3工程では、第2の出力が励振信号で
あることを前提として第1の符号化信号部の新たな最適
値を決定し、また新たな最適値に対応する新たな第1の
出力を発生する。そして第4工程では、新たな第1の出
力に基づき第2の符号化信号部の新たな最適値を決定し
、それに対応する第2の新たな出力を発生する。最後に
第5工程では、第1、第2の符号化信号部の最適化がな
されるまで第3、第4工程を繰り返し実行するのである
[実施例コ 音声符号化/f1号化の復号化側のブロック図を第1図
に示す。例えば、8 K)Izでサンプルされた入力音
声フレームは無音検出回路10に供給され音声フレーム
か無音フレームかの検出がされる。無音フレームの場合
、符号化・復号化プロセス全体をバイパスして演算を省
略する。この場合、白色ガウス雑音が1!号化側におい
て出力音声として発生する。以下、無音検出のアルゴリ
ズムについて説明する。
無音検出回路IOにおいて音声フレームを検出スルト、
スペクトルフィルタ分析回路12kおいてスペクトルフ
ィルタ分析が行われる。ここで、10次全極フィルタモ
ードであると仮定し、ノンオーバーラツプハミング窓音
声を用いた自己相関法に基づいて分析を行う。10個の
フィルタ係数が次にスペク]・ルフィルタ符号化回路1
4において、以下に説明するように26ビットで量子化
される。得られたスペクトルフィルタ係数は次の分析で
用いられる。以下、スペクトルフィルタの符号化アルゴ
リズムを詳細に説明する。
ピッチ及びピッチ利得をピッチ/ピッチ利得演算回路1
6において閉ループ構成を用いた演算を行う。一般に、
三次ピッチフィルタの方が一次ピッチフィルタよりも特
に音声の高周波成分に対して優れた特性を有するが、演
算量を考慮して一次フィルタを用いても良い。ピッチ及
びピッチ利得はともに1フレームにつき3度更新される
ピッチ/ピッチ利得符号化回路18において、1θかも
143のサンプルのピッチレンジに対してピッチ値を7
ビットで正確に符号化し、Sビットスカラー量子化器を
用いてピッチ利得を量子化する。
励振信号と利得項Gは共に閉ループ構成での演算が行わ
れる。閉ループは、励振符号帳20、利得Gの増幅器2
2、増幅された利得信号、ピッチ及びピッチ利得を入力
し、合成ピッチを出力するピッチシンセサイザ24、合
成ピッチとスペクトルフィルタ係数(a、)を入力し、
入力合成ピッチの合成スペクトルを出力するスペクトル
シンセサイザ26、及び合成スペクトルを入力し、知覚
的に重みづけされた予夕11値を減算器30に出力する
知覚重みづけ回路28とからなL、減算器30カ)らの
残差信号は励振符号帳20に帰還するよう構成されてい
る。励振信号コードワードC3及び利得項Gは共に1フ
レームにつき3度更新される。
利得項Gは5ビットスカラー量子化器を用いて符号化回
路32kよって量子化される。励振符号帳は以下に詳述
するように分解したマルチパルス信号の集合であL、ふ
たつの励振符号帳構成を用いることができる。一つは全
体サーチ機能を有する非拡張符号帳であり最良の励振符
号帳を選定する。使用する符号帳構成により励振信号の
符号化に対して異なるデータビット数が割り当てられる
更に音声の質を向上させるには、符号化及び分析のため
に別の二つの技法を用いることかできる。
第一の技法は、ダイナミックアロケーション法であL、
重要でないピッチフィルタ(及び/叉は励振信号)から
省略したデータビットを必要ないくつかの励振信号に再
割当するものであL、第二の技法は、反復法であL、音
声符号化/複合化パラメータ全部を最適化するものであ
る。最適化を行うには、以下に詳細に説明するように、
スペクトルフィルタ係数、ピッチフィルタパラメータ、
励振利得及び励振信号の反fl ill算が必要となる
第2図に示されているように、復号化側において、選択
された励振符号語CIは増幅器50において利得項Gに
より0倍に増幅され、ピッチ合成語54の入力信号とさ
れる。ピッチ合成器54の出力はスペクトル合成基56
の入力となる。4.8kbpsにおいて、再構築された
音声の受容クォリティを高めるためにポストフィルタ5
6が必要になる。ポストフィルタがほぼ同じくなる前後
の音声パワーを補償するために自動利得制御法を用いる
。ポストフィルタ及び自動利得制御を行うためのアルゴ
リズムにつきたは以下詳細に説明する。
拡張もしくは非拡張励振符号帳の使用に応じて、次に示
すテーブルlのようないくつかの異なるビット割当法が
決定される。
サンプルレート フレームサイズ(サンプル) 使用ビット スペクトルフィルタ ピッチ ピッチ利得 励振利得 励振 フレーム同期 ビット 一般に、非拡張励振符号帳を用いた符号化/復号化の特
性は優れているとはいえないが、ハード化を図るには簡
易である。ここで、同じ構成に基づいて他のビット割当
法も導くことがで着るが、それらの特性は極めて近似し
たものとなる。
音声活動検出 最も実用的な状況において、音声信号にはノイズが含ま
れておL、このノイズレベルは時間と共に変動する。ノ
イズレベルが大きくなればなるほど、音声のオンセット
及び終了を正確に決定する作業及び音声活動の検出がま
すます困難になる。
好ましい音声活動の検出アルゴリズムは各フレームのフ
レームエネルギーEと雑音エネルギーしきい値N、hと
の比較に基づく。雑音エネルギーしきい値は雑音レベル
のバラツキを追跡できるようにするためフレーム毎に更
新される。
第3図に音声活動検出アルゴリズムのフローチャートを
示す。ステップ100において、平均エネルギーEを演
算し、ステップ102kおいてN=iooフレームにわ
たる最小エネルギーを決定する。次に、ステップ104
において、雑音のしき(′値をE1、、を基準に3dB
上に設定する。
音声スパー1・長の統計値を用いてNIhに適合させる
ために窓長(N、=100フレーム)の決定を行う。音
声スパートの平均長は約1.3秒となる。
100フレームの窓は2秒以上に相当し、従って窓が純
粋な無音もしくは雑音フレームをいくつか含んでいる可
能性が高い。
ステップ106においてエネルギーレベルEをしきい値
Nlhと比較し信号が無音もしくは音声であるかの判定
を行う。音声である場合にはステップ108において現
フレーム(すなわちNPR)直前の連続音声フレーム数
が2もしくは2以上であるかどうかの判定を行う。2も
しくは2以上であればステップ110においてハングオ
ーバー値を8の値に設定する。NFRが2未満である場
合にはステップ+12kおいてハングオーバー値を1の
値に設定する。
ステップ10f3においてエネルギーレベルEがしきい
値を越えなければステップ114においてハングオーバ
ー値がOであるかどうかの判定を行う、もしOでなけれ
ば音声状態の検出がなかったものとしてステップllG
においてハングオーバー値を減少させる。ステップ11
0もしくは112kおいてM終的に設定された値がいく
つであってもハングオーバー値がOになるまでこの処理
を継続する。そしてステップ114においてハングオー
バー値が0の場合には無音検出であると判定する。
ハングオーバーメカニズムには2つの機能がある。第1
の機能は音声スパート内に生ずる音節間ポーズの橋渡し
をすることである。音節間ポーズ期間に関する統計値に
基づき選択される8フレームが決定される。第2の機能
は音声スパー1の終わりにおいて音声の脱落が生じない
ようにすることであL、この場合エネルギーは無音レベ
ルまで徐々に減衰する。少なくとも3フレームにわたっ
てフレームエネルギーがしきい値まで上昇し、しきい値
以上を保持する以前に1フレームのハングオーバー期間
を短くしておくのはインパルスノイズのバーストが短い
ために誤音声と認定されるのを避けるためである。
スペクトルフィルターコーディング(符号化)音声の二
つの連続するフレームのスペクトル形状が近似している
という観察結果並びに音声波形の形状が限定されるとい
う事実に基づき、スペクトルフィルターコーディングの
ためにベクトル量子化を用いたフレーム間予測法を適用
することができる。この方法のフローチャートを第4図
(a)に示す。
フレーム間予タリ符号化法は以下のように表すことがで
きる。
現フレームのパラメーター郡及び107&スペクトルフ
イルター用の Fn=(fi、′I1.fi、′2′、 1、、  f
i+1°))゛が与えられると予測パラメター群は次ぎ
ように表すことができる。
P、l= A Fl1、            (r
)ここで、Aは最適予p1マトリクスを表しこれは平均
予測二乗誤差を最小にするものであり以下の式によって
表される。
^= E[(F、F’、l)][E  (Fn−+Fn
−+)JT −1(2)ここでEは予測演に値を表す。
フレーム間の変化がスムーズであるため、例えば198
4年11月のNRLレボ−)8857におけるa、  
S、  ハング、L、  J、  フランセンの「線ス
ペクトル周波数(LSFs)に基づく低ピッ)lエンコ
ーダ」に説明されているように、線スペクトル周波数(
LSFs)をパラメータ群として選定する。音声の各フ
レームに対してステップ120において線予測分析を行
い、Lollの予測係数(PCs)を抽出する。次に、
ステップ122kおいてこれらの係数を対応するLSF
パラメータに変換する。フレーム間予測を行うためにス
テップ124において多数の音声データベースを用いて
あらかじめ演算した平均LSFベクトルを現フレームの
LSPベクトルから減算する。ステップ128において
、同じ音声データベースを用いて同様にあらかじめ演算
された(IOXIO)の予測マトリクスからなる6ビッ
トの符号帳をサーチし、平均二乗予11VI+誤差を最
小にする。
次にステップ130において現フレームに対する予測L
SFベクトルを演算するとともに、現フレームLSFベ
クトルFnと予i!l’l L S FベクトルF1、
 どの差に基づく残余LSFベクトルを演算する。ステ
ップ132及びステップ134において残余LSFベク
トルは二段ベクトル量子化器によって量子化される。各
ベクトル量子化器は1024(10ビット)のベクトル
を有する。特性を向上させるためには、各LSFパラメ
タのスペクトル感度及び人間の聴感ファクターに基づく
重み付けされた平均二乗誤差歪量を用いることがでとる
。もしくは、最初の二つのL S Fパラメタに二倍の
重み付けするする重み付けベクトル[2,2,1、1、
1.1.1.1、■、1、コな用いても良い。
24ビット符号化法を第4図(a)及び(b)を参照し
ながら説明する。
ステップ128において予測マトリクス八を選択すると
、上記式(1)に基づき予佛I L S FベクトルF
、lを演算することができる。減算器140において実
際のLSFベクトルF。から予測しSFベクトルF。を
減算すると、第4図(b)においてE7として表される
残余LSFベクトルが得られる。
この残余ベクトルE1、は1024(10ビット)個の
ベクトルを有する初段量子電離124に供給され、10
24mのベクトルから残余しSFベクトルE、lに最も
近い(10ビット)ベクトルが選定される。選定された
ベクトルは第4図(b)においてE7として表され、減
算器144に供給されて第1の残余信号E。とその近似
値E、lの差を表す第2の残余ベクトルDゎの演算が行
われる。この第2の残余信号は初段量子電話142と同
様な2段目量子化器146に供給される。2段目量子化
器146は1024(10ビット)個のベクトルな有し
そこから第2の残余信号L、、に最も近いベクトルが選
定される。第412I(b)において二段目量子化器1
46によって選定されたベクトルはり。とじて表されて
いる。
現LSFベクトルを復号化するには、復号電器必要があ
る。
D1、及びE、1はともに工Oビットベクトルであり合
計で20ビットである。F1、はF。−1と上式(1)
のAから得られる。Pn−1は複号弱においてすでに求
まっているので、ステップ128において選定されたマ
トリクスを表す6ビットコードだけが必要となL、その
ため合計で26ビットとなる。
符号化されたL、SF(直はステップ136において一
連の逆演算により演算される。次にステップ138にお
いてスペクトルフィルター用の予測係数に再び変換され
る。
スペクトルフィルターコーディングを行うには、多くの
訓練により得られた音声データベースを用いて数種類の
符号化帳をあらかじめ演算しておく必要がある。これら
の符号化帳にはしSF平均ベクトル符号化帳の他、2段
のベクトル化器用の2つの符号化帳が含まれる。全体の
処理を行うには、一連のステップを遂行する必要がある
が、その際各ステップにおいては所望の符号化帳を作成
するために前のステップから得られたデータを用い、次
のステップに必要なデータベースな作成する。
LPC−10に用いる41ビットの符号化法を比較する
と符号〔ヒ困y1度はより高いがデータ圧縮は十分であ
る。
符号化特性を向上させるためには、知覚重み付けファク
ターを2段ベクトル量子化邸に用いる歪量に含めておか
なければならない、歪量は次式により定義される。
D= Σ 町(Xビ 丁、)2 1=1 ここで、Xw及びγ、はそれぞれ被量子化LSFベグレ
ープクトルの成分及び符号化帳における各符号電画の対
応する成分を表ず。ωは対応する知覚重み付けファクタ
ーであり次式により定義される。
ここで、 u(f+)lよ高岡11量子化に対する人間の耳の不感
度を考慮したフ1ククーである。flは現フレームに対
する線スペクトルのi番目成分を表ず。
D、はF、4こ文1するグループa延をミリ秒で表した
ものである@  Dsnxは最大グループ遅延を表し、
これは実験的に20ミリ秒IFI rfiであることが
知られている。グループ遅延L、はき周波数fiの特定
のスペクトル感度を考慮したものであり同時に音声スペ
クトルのフォルフン81M成に連関している。
フtルマント閉域の近傍周波数領域においてはグループ
遅延が大とい、従ってこれらの周波数領域においてはよ
り正確な量子化が必要となL、よって重み付けファクタ
ーを大きくする必要がある。
グループ遅延Diは−nr(n=1.2、・・・10)
における比率フィルターの位相角の傾ぎとして容易に演
算することができる。この位相角はスペクトルフィルタ
ーの予測係数を対応する線スペクトル周波数に変換する
過積において演算される。
各フレームにおけるスペクトルパラメタの演算をブロッ
ク処理で行っているためスペクトルフィルターのパラメ
タは音声信号の移行期間中、隣接フレームにおいて急峻
な変化を示す。個の急峻な変化を平滑化するためにスペ
クトルフィルターの補間法が用いられる。
補間には量子化された線スペクトル周波数しSFが用い
られる。ピッチフィルターと励Wt演算を同期化するた
めに、各フレームにおけるスペクトルフィルターのパラ
メタが三つの異なる値で補間される。音声フレームの最
初の3分の1については、現フレームと前フレームにお
けるLSPの間の線補間によって新たなスペクトルフィ
ルターのパラメタが演算される。音声フレームの真ん中
の3分lについてはスペクトルフィルターのパラメタに
変化はない。音声フレームの最後の3分のlについては
現フレームと後続フレームにおけるLSP間の線補間に
よって新たなスペクトルフィルターバラメタが演算され
る。補間用に量子化された線スペクトル周波数を用いて
いるので、複号器には余計な側情報は不要となる。
スペクトルフィルターの安定化制御のためには、量子化
線スペクトル周波数(fi、f2、・・fl。)の強g
殺定か予−り係数に再変換される前に確認される。強度
設定が適切でない場合、すなわちfi・<fi−、の場
合には2つの周波数の交換を行う。
F、  K、  スーング及びB、ジュアングにょるI
EEE  Proc、ICASSP−84、pp。
1.10.1−1.10.4にお+fるr線スペクトル
対(LSP)及び音声データ圧縮Jに記載されている方
法に基づき別の36ビット符号化法が行われる。基本的
には10個の予測係数をまず(fi、・・・f +o)
で表される対応する線スペクトル周波数に変換する。量
子化法は (1)fiをF、に量子化しi=1に設定する。
(2)△f+”f++1、 f+を演算しく3)△fi
を△fiに量子化し、 (4)fl+1=fl+△fiを再構成し、(5)i=
lOならば停止しそれ以外ならば(2)へ進む。
低次の線スペクトル周波数は高いスペクトル感度を有す
るためにそれらに対してより多くのデータビットを付与
する必要がある。△fi−Δf6の各々に対して4ビッ
トを割当て、更に△f7−△。
0の各々に対して3ビットを割当てるビット割当法がス
ペクトルの正確さを維持するに十分であることが知られ
ている。この方法ではより多くのデータビットを必要と
するが、スカラー量子電話のみを用いているためハード
ウェアで実現するには簡単な構成で済む。
ピッチ びビッヂf1′1算 4.8kbpsで演算するCELP音声符音声符号化性
を向上するためのピッチループトラッキングの二つの方
法を以下に説明する。
第1の方法では閉ループピッチフィルター分析法を用い
る。第2の方法ではピッチフィルターパラメタの更新周
波数を増加することを目的とする。
コンビユーターンユミレーンヨン及び聴感試験の結果、
再構成された音声の品質が大幅に向上したことが明らか
になった。
又、以下の説明から明らかなように、最適な励振符号死
語の選定のための閉ループ法は基本的にピッチフィルタ
ー分析の為の閉ループ法と同じである。
ピッチフィルター分析のための閉ループ法の説明に先立
って間ループ法について説明する。間ループフィルター
分析は短項フィルター処理によって得られる残余信号(
e1、)に基づき得られる。
般に、1次もしくは3次ピッチフィルターを用いる。こ
こで、閉ループ法との特性比較のために1次ピッチフィ
ルターを用いている。ピッチ周期M(サンプル数によっ
て決定される)及びピッチフィルター係数すは次式で定
義される予測残余エネルギーE (M)を最小化するこ
とにより決定される ここで、Nはピッチ予ハリに対する分析フレーム長を表
す。簡略化を図るべく、最小値B (M)に対するM及
び111の111!を得るのに、次の方法が用いられる
。bの(直は7欠式より得られる。
b ” It 14/ R。
(4) ここで (4)式にオ、1ノるbを(3)式に代入すると、E 
(M)を最小にすることとR,42/ Roを最大にす
ることが等洒であることが明かとなる。この項は1θか
ら143のリンプルから選択される範囲のMのそれぞれ
の1戸に対して演算される。この項を最大にするMの値
をピッデイ4として選定する0次に(4)式に基づきピ
ッチフィルター係数を演算する。閉ループピッチ分析法
は最初にS、シングハール及びB、  S、  アター
ルにより提案され、ICASSP、  pp、  1.
 3. 1−1. 3. 4.1984年出版0「低ビ
ットレートにおけるマルチパルスLPC符号化器の改良
特性」に述べられておL、ピッチ予測を用いてマルチパ
ルス分析を行っている。しかしこれは直接的にCELP
符号化器にも適用するこができる。ピッチフィルター分
析のためのこの方法では、元の音声と再構成された音声
間の重み付け歪量(一般にはMSE)を最小化すること
によりピッチ値及びピッチフィルターパラメタが決定さ
れる。同様に、励振サーチ用の閉ループ法においては元
の音声と再構成された音声の間の重み付け歪量を最小化
することにより最適励振信号の決定が行われる。
CELPシンセサイザーを第5図番こ示す。同図におい
て、Cは選定された励振符号語であL、Gは増幅ti1
5cl)利得項、l/P (Z) 及U1/A (Z)
はそれぞれピッチシンセサイザー152とスベクトルン
ンセサイザー164を表す。閉ループ分析を行うために
、合成された音声S (n)が決められた重み付け歪1
(例:MSE)の点から元の歪量S (n)に最も近く
なるように符号語Cい利得項G、ピッチ値M及びピッチ
フィルターパラメタを決定する。
第6図に閉ループピッデフイルター分析の処理を示す。
ピッチシンセサイザ−152への入力信号をOとする。
i*Wを簡略化するために1次ピッチフィルター、すな
わちP (Z)=l−bZ−”を用いる。スペクトル重
みイすけフィルター15Ei及び158は次式で与えら
れる伝送関数を有する。
W (Z)=A  (Z)/A  (Z/ r)   
  (C3a)ここで rはスペクトル重みILけ制御の定数な表し、般に8 
K )I zでリンプルされた音声信号について0.8
程度に)π定される。
第6図の等簡ブロック図を第7図に示す。入力が0の場
合(こX (n)はX (n) =bX (n −M)
で与えられる。Yw(n)を入力X (n)に対するフ
ィルター154及び158の応答とするとYw(n) 
= b Yw (n  M)となる。ピッチ値Mとピッ
デフイルターIN: gk、 bは、Y、(n)とZw
(n)間の歪が最小となるように決定される。ここで、
Z w (n )は減算1160において重み付け音声
信号からフィルターA (Z)の重み付けメモリを減算
した浚の残余信号として定義される。次いで。
減界器162kおいてZ w (n )がらYw(n)
が減算され、Y、1(n)とZ−(n)の間の歪量が次
のように定義さ1Lる。
ここでNは分析フレームを表す。最適な特性を得る為に
は、最小1aEw(M、b)に対してピッチ値Mとピッ
デフイルター係nbを同時にサーチする必要がある。し
かしながら、M及びbを簡単なシーケンスで得れば特性
が大幅には悪化しないことが知られている。bの最適値
は次式で与えられる。
E、(M、 b) の最小値は次式で与えられる。
(q) 第1の項は定数であるのでEw(M)t!:j%小とす
ると第2の項が最大となる。この第2の項を所定の範囲
(18−143サンプル数)における間のそれぞれの値
に対し演五を行い、この第2の項を最大とする値をピッ
チ値として選定する。ピッチフィルター係数すは上式(
8)から得られる。
1次ピッチフィルターについては量子化すべき二つのパ
ラメタがある。一方はピッチであL、他方はピッチ利得
である。ピッチの量子化は16h1ら143サンプル数
の範囲にあるピッチに対して7ビット・を用いて直接行
う。ピッチ利得はスカラー的に5ビットを用いて量子化
を行う。5ビット量子化器はベクトル量子化器の設定に
おいて用いられるクラスター法を用いて設定される。即
ち、符号化により多量の音声ベースからピッチ利得の基
準データベースを収拾し、ベクトル量子化器の符号帳を
設Z1するのに用いるのと同じ方法を用いて、ピッチf
ll i尋用のコードブックを生成する。ピッチ利得の
精度を維持するには5ビットで十分であることが知られ
ている。
ピッチフィルターが時として不安定になることが知られ
ている。特に、音声信号のパワーレベルが急峻な変化を
示す過渡期(例えば、無音フレームから音声フレームに
移行する場合)において顕著である。フィルター安定度
を高めるには、ピッチ利得を所定のしきい値(例えば、
1、4)に制限すれば良い。この制約はピッチ利得用の
基準データベースを生成する過程で必要となる。従って
、最終的に得られるピッチ利得符号帳には、しきい値以
上の大ぎな値は含まれていない。この制約によって符号
化特性が何らかの影響を受けることはない。
最適な励振符号語をサーチするための閉ループ法はピッ
チフィルター分析用の閉ループ法と極めて近似している
。第8図に閉ループ励振符号語サーチを行うためのブロ
ック図を示す。第9図は第8図の等価ブロック図である
。Zw(n)とYw(n)との間の歪量は次式によって
与えられる。
ここで、Z−(n)は、減1■80において重み付けさ
れたff声(3号からフィルター172及び174の重
みけ:)された記it値を減算した陵の残差信号を表1
゜Yw(n)は入力信号C1に対するフィルター172
,174及び178の応答を表す、CIは1午となって
いる符号語を表す。
閉ループピッチフィルター分析において用いられている
ように、Ew(0,C:+)を最小にするG及びC3の
最も好ましい組み合わせを抽出するために、最適と見な
せるシーケンシャルな方法が用いられる。GのPIA埴
は次式によって与えられる。
− (11) Ew(G、CI)の最小値は次式によって与えられる。
前に述べたようにEw(CI)を最小にすると前式(1
2)の第2の項が最大となる。この第2の項を励振コー
ドブックにおける各符号1m CIに対して演旅する。
この項を最大にする符号語CIを最適励振符号lnとし
て選択する。次に、前式(l l)に基づき刊m JJ
T Oの1寅算を行う。
励振利得のm子化はビッヂの量子化と同様に行われる。
即ち、符号化をこより多量の音声ベースから励振利得の
基中データベースを収拾し、ベクトル量子化式のrT′
i′j帳を股11するのに用いるのと同じ方法を用いて
、励振利1り用のコードブックを生成する。音声i′T
り化特性の精度を維持するには5ビットで十分であるこ
とが知られている。
M、  R,スクロエダー及びB、  S、  アクー
ルによる[符η励県線形子it!II(CELP):超
ローピッ、トレードにお1ノる高音質音声J、音響・音
声・信号処理国際会講訪(ICASSP)、pP、93
7−940.1984年版によれば、CELP符号化器
を用いれば高品質音声が得られることが述べられている
。しかしながら、かかる方法によれば、励振符号帳(1
0ビットランダムガウス符号帳)を除いて伝送すべきす
べてのパラメタが符号化されないままになる。また、パ
ラメタの更新周波数は高いものとされる。即ち、 (1
6次)短項フィルターは10ミリ秒につき一度更新され
る。
要項フィルターは5ミリ秒につぎ一度更新される。
4.8kbpsにおけるCELP音声符号化については
、1フレーム(約20から30ミリ秒)につき−度以上
短項フイルターを更新すべき十分なデータビットが存在
しない。しかしながら、システム設計を適宜行うことに
よL、■フレームにつき一度以上長唄フイルターを更新
することが可能となる。
異なるピッチフィルターの更新周波数の間ループもしく
は閉ループピッチフィルター分析法を用いたCELPi
F号化器につい電器発明者はコンビューターシュミレイ
ション及び非公式な[!!宜テストを行った。符号化n
は次のようなものを用いる。
CP i A :開ループ・更新I CPIB:閉ループ・更新1 CP4A :開ループ・更新4 CP4B :閉ループ・更新4 第10図(a)から第10図(c)にCELP符号化雛
のブロック図を示す。第1O図(d)に複合化器のフロ
ック図を示す。第6図に用いられている閉ループ法を用
いて、ピッチ及びピッチ利得を決定し、第8図に示され
ている閉ループ法2より励振符号語サーチが行われてい
る。、4つの符号化器に対するビット割当を下記テーブ
ルに示す。
短項フィルター分析については以下に述べる3つの理由
により共変法のうち自己相関法が選択される。第1の理
由は聴感テストによりこれら二つの方法の間には顕著な
差がないからである。第2k理由は自己相関法にはフィ
ルターの安定にかかわる問題がないからである。第3の
理由は固定点計算を用いて自己相関法の実現が可能だか
らである。線スペクトル周波数における10個のフィル
ター係数は20ビットかつ2段構成のベクトル量子化器
(マトリクスAを指定するのに4ビットのみを用いる場
合を除く上述した26ビット法と同じ方法〕により24
ビットフレ一ム間予測法を用いて符号化される。もしく
は前述したスカラー量子化器な用いて36ビット法で符
号化される。しかしながら、増加したビットを収容する
ためには音声フレームの強度を増加させる必要がある。
ピッチ値及びピッチフィルター係数はそれぞれ7ビット
及び5ビットで符号化されている。利得項及び励振信号
はlフレームにつき4度更新されている。各利得項は6
ビットで符号化されている。
励振符号帳は以下に説明する分解マルチパルス信号を用
いたものが知られている。10ビット励振符号帳はCP
IA及びCPIB符号化器に対して用いられ、9ビット
励振符号帳はCP4A及びCP4B符号化器に対して用
いられる。
まず、CP IA及びCPIB符号化器の比較が非公式
聴覚テストを用いて行われる。CPIB符号化器はによ
る音声の方がCPIA符号化器によるものより劣ること
が知られている。ピッチフィルター更新周波数を励振(
利得)更新周波数は異なるため、最適励振信号をサーチ
するために用いられループ、ピッチフィルターメモリー
と閉ループピッデフイルター分析に用いられるピッチフ
ィルターメモリーは異なることとなる。その結果、閉ル
ープピッチフィルター分析による利点は失われる。
CP4A及びCP4B符号化閲はこの問題を回避してい
る。この場合フレームサイズが大きいため、分解マルチ
パルス信号においてより多くのパルスを用いると励振モ
デルにより符号化器の特性を向上でとるかどうかの判定
が行われた。  N。
(Np= 16.10)の2つの値について行われた。
N、は各励振符号語におけるパルス数を示す。フレーム
SNRについてのシュミレーションの結果第11図に示
す。同図よL、N、が10を越えると符号化式の特性の
改善には寄与しないことがわかる。
従ってNp”10に設定する。
CP4A及びCP4B符号化訝のフレームSNRに対す
る特性比較を第12図に示ず。同図から明らかなように
閉ループ法の方が間ループ法に比べ特性が優れているこ
とがわかる。SNRと知覚した符号化器の特性との相関
関係は、特に符号化器の設計において知覚的重み付けを
用いた場合には薄いが、SNR曲線はこの場合正しい値
を示している。非公式聴覚テストの結果から、CP4B
符号化器による音の方が残りの三つの符号化器のいずれ
よりもスムーズであり鮮明であることがわかった。再構
成された音質は自然音声に近いと見なせる。
マルチパルス分解 P、クローンおよびB、  S、  アタールによるr
CELPCP4B符号化器励振用量子化法」ICASS
P、pp、33.8−33.11.1987年版による
とCELP符号化話において励振符号化帳の基準作成方
法によって大きな差異は生じない、即ち、複数手段によ
って基準化された1024個の符号語を有する符号帳は
、ランダムなガウス数によるもの、ランダムな一定数に
よる者、マルチパルスベクトルよるものであっても、再
生される音声はほとんど同一となる。マルチパルス励振
ベクトルの特性がまばらであると(多くの0項を有する
場合)、記憶量?減らすための励振モデルとして好まし
いものとなる。
以下の説明は、特性を悪化させることなくメモリーを相
当量減らす為に、従来用いられていたランダムなガウス
励振モデルを変えて本発明による励振モデルを用いたも
のである。励振サブフレームにN1個のサンプルがある
とすれば、Bビットガウス符号帳用の必要なメモリーは
2”XNfワードとなる。各マルチパルス励振コード符
号語中にNPllのパルスが含まれているとすれば、パ
ルスの強度と位置を含む必要なメモリーは(2kX2X
N、)ワードとなる。一般に、N−よN、よりはるかに
小さいため、マルチパルス励振モデルを用いればメモリ
ーの削減を行うことができる。
メモリーを更に削減するためには分解マルチパルス励振
モデルを用いることが考えられる。26のマルチパルス
符号語をランダムに生成されたパルスの強度及び位置に
直接使用するかわりに、2B/2のマルチパルス強度符
号語及び26/2のマルチパルス位置符号語が別々に生
成される。次いで、各マルヂバルス励振符号語が2b/
2のマルチパルス強度符号語の1つと、21/2のマル
チパルス位置符号語の1つを用いることにより構成され
る。合計で26個の異なる組み合わせが得られる。符号
帳の大きさは等しいが、この場合必要なメモリーはたか
だか(2X2”’)XN、ワードとなる。
分解マルチパルス励振モデルが有効な励振モデルである
ことを立証すべく、3つの異なる励振モデノ呟 即ちラ
ンダムなガウスモデル、ランダムなマルチパルスモデル
及び分解マルチパルス励振モデルの異なる3つの異なる
励振モデルを用いてコンピューターシュミレイションを
行った。ガウス符号帳はN(0、■)ガウスランダム数
発生弱す用いて生成した。マルチパルス符号帳はそれぞ
れパルス位置とパルス強度に対して一定ランダム数発生
器及びガウスランダム数発生器を用いて生成した0分解
マルチパルス符号帳はマルチパルス符号帳と同じ方法で
生成した。音声フレームの大きさをサンプル数160に
設定した。これは8KH2でサンプルされる音声信号に
対する20ミリ秒の期間に対応する。10次の短項フィ
ルター及び3次の長唄フィルターを用いた。両フィルタ
ー及びピッチ値はlフレーム毎に更新した。各音声フレ
ームを4つの励振サブフレームに分解した。1024個
のr:FI+語を有する符号帳を励振用に用いた。
ランダムなマルチパルスモデル対しては、二つの値のN
、(8及び16)を採用した。  この場合N、=8の
場合はN、= 16の場合と同様な結果を得た。そこで
、N2=8を選択した。3つのモデルに対する必要なメ
モリーは以下の通りである。
ガウス励振: 1024X40=40960ワードマル
チパルス励振: l024X 2X 8=16384ワ
一ド分解マルチパルス励振: (32+32) X 8
=512ワード上記よりメモリーの削減が十分であるこ
とがわかる。一方、第13図乃至第16図に示したよう
に、異なる励振モデルを使用したために符号化器の特性
がほぼ等しくなっている。よって、マルチパルス分解に
より極めて簡単であるがCELP励振符号帳に対するメ
モリー削減を有効に行う励振モデルが提供される。また
、コンピューターシュミレイションによL、本発明にか
かる励振モデルがCELP符号化閲用のランダムなガウ
ス励振モデルとしても有効であることが実証された。こ
の励振モデルでは、メモリーの過負荷の問題を生ずるこ
となく、符号化器の特性を向上するために符号帳の大き
さを拡張することができる。しかしながら、演算の壇雑
さを回避するために拡張した符号帳から最適な励振符号
語を抽出するための対応する高速サーチ法が必要となる
直接ベクトル量子化を用いたマルチパルス励tl符i景 1、マルチベクトル発生 以下の説明は、ベク]・ル量子化を直接マルチパルス励
振符号化に適用する為の簡単かつ有効な方法を述べたも
のである。パルス強度とパルス位置とともにマルチパル
スベクトルを多次元空間における点として処理すること
が基本的な考え方である。適宜変換を行うことにより一
般的なベクトル量子化技術を直接的に適用することがで
とる。この方法は、典型的CELP符号化監よ電話相当
に大きい符号帳を有するCELP符号化器用のマルチパ
ルス励振符号帳の設定にも拡張して用いることができる
。最適な励振ベクトルサーチを行うためには、合成によ
る分析法を直接用いるかわりに、ベクトル量子化と合成
による分析法を組み合わせた形で用いる。励振符号帳を
拡張すると符号止器の特性が向上し、一方、高速サーチ
法を用いることにより演算の複雑さが通常のCELP符
号化監の電話に比べるとはるかに複雑さが減少する。
T、アラゼキ、に、オサワ、S、オノ及びK。
オチアイによる「最大相互相関リーチアルゴリズムに基
づくマルチパルス励振音声符号死語」、グローバル・デ
レコミニュニケイションズ会議、pp、731738.
1883年版には、相互相関分析に基づくマルチパルス
励振信号発生の有効な方法が述べられている。同様な技
術を基準マルチパルス励振ベクトルを生成するために用
いても良い。この基準マルヂ励振ベクトルは本発明によ
るマルチ・パルス励振符号帳を得るために用いられるも
のである。第17図にそのブロック図を示す。
X (n)を前フレームから過剰分を差し引いた接のN
サンプルフレーム中の音声信号とし、■−1パルスがあ
る位置及びある強度を有しているとすると、1番目のパ
ルスはl欠のようになる。 rnl及びgIをそれぞれ
i番目のパルスの位置及び強度とし、h(n)を合成フ
ィルターのインパルス応答とする1合成フィルターの出
力Y (n)は次式で与えられる。
X (n)及びN(n)間の瓜み付け誤差は次式%式% () (() ()) () (14) () ) ここで、*は腎み込み演nを表し、Xw(n)及びhw
(n)はそれぞれX (n)及びb(n)の重み付けさ
れたIM 号を表す、mみ付けフィルター特性は2軸変
換喪記法により次のように表される。
ここでnkは1)イ欠のしPCスペクトルフィルタ−の
予測係数であL、γは知見重み付け制御を行うための定
数である。γの1直は8 K tl zでサンプルされ
た音声信Vljに対して約0.  8である。
最小にずべきlイi差パワーPwは次式により定義され
る。
!−1パルスが決定されると、1番目のパルス位置m−
よ1番[」の強度gー二関して誤差パワーPvの微分1
mGl≦川,≦Nに対してOに設定することにより得ら
れ、1番目の強度g1は次式で表される。
上記2つの式J、り最適パルス位置はg,の絶対値が最
大になる点…1になることがわかる。よってパルス位置
は複雑な前nを多く行わないで得ることができる.フレ
ームエツジを適宜処理することより上式を更に簡略して
次式を用いることができる。
(1日) ここでRh1.(n )はh w (n )と自動相関
の関1!、にあL、R+、(11)はh w (n )
及びXw(n)間の相互相関の凹1gIにある。従って
、最適パルス位置m、は式(18)からg+の絶対最大
点をサーチすることにより決定される。初期化のため、
第1のパルスの最適位M m HはRhx(n)がその
最大値に到達したfつ置にある。最適強度は次式により
与えられる。
マルチパルス励振信号の発生のために、LPCスペクト
ルフィルター(Δ(Z))を単独で用いるか、もしくは
スペクトルフィルターとピッチフィルター(r’ (Z
) )の組み合わせを用いることができる。例えば、第
17図に示すように、1/A (Z) * l / P
 (Z) ハ2つノフ4 /Lクーのインパルス応答の
畳み込みを示す。コンピューターシュミレイション及び
非公式聴覚試験結果から、特殊なフィルター東独な場合
には高品質音声を生成するには1フレームにつき約32
−64のパルスで十分であることがわかった。1フレー
ムにつぎ64パルスの場合には再構成された音声が元音
声と区別できない。lフレームにつき32パルスの場合
には再構成された音声は良好であるが元音声に比べると
質的に低下する。スペクトルフィルター及びピッチフィ
ルターの両方を使用するとパルス数を差励振に減少せし
めることができる。
パルス位置を固定したとすれば、複数あるパルス強度を
併せて再最適化することにより符号化器の特性が改善さ
れる。Lを1フレームにおける総パルス数としたとき、
最終的なマルチパルス励振信号は単一のマルチパルスベ
クトルV= (m4、・・、mL、g4、・・・・、g
L)により特徴づけられる。
2、マルチパルスベクトルの  化 環マルチパルスベ
クトル符号化にとって重要なことは、ベクトルV=(m
i、 −−−+ mL+  g +、−。
、+  gL)を数値ベクトルか、もしくは2L次元空
間での幾何学的な点として取り援うことである。
適当な変換によL、有効なベクトル量子化の方法が直接
的に利用できる。
いくつかの符号帳をマルチパルスベクトル符号化のため
に予め作っておく。最初に、パルス位置平均ベクトル(
PPMV)とパルス位置分散ベクトル(PPVV)を音
声データベースモデルを用いて計算される。−組の列マ
ルチパルスベクトル(V=(m、+1、1、rnL、 
gI、・・・+・−−+ gし))を与えた場合、  
PPMV及びppvvは以下の様に定義される PPMV=   (E  (m+)、−1,、E  (
m+))PPVV  =   (cr(rr++)1、
1、、σ (m+))(20) ここで、E(、)及びσ(、)は各々引数の平均と凛準
@差を表している。さらに各列マルチパルスベクトルV
は対応するベクトルv” (m+、−mL5 gI、・
・・lollg−に変換される。ここで、m  =  
 (m、−E  (rr++) ) /σ (m、)λ
i  =  gilo 1、、(21) ここで、Gは以下の式により与えられた利?得項を表し
ている。
各ベクトル■はいくつかの情報圧縮処理を用いてさらに
変換される。これにより得られた列ベクトルはマルチパ
ルスベクトル量子化のための符号帳を設計するために利
用される。
ここで、式(21)の変換処理は何等情報圧縮効果を得
るものではないことに注意すべきである。
この変換処理!は設81されたベクトル量子化腑が、例
えば異なった→ノブセットの位置ベクトルかもしくは異
なる音声パワーレベルのような、異なった条件に適応す
ることができるように利用されているに過ぎない。この
tII、l′iのIL!情報伝送速度用音声符号化分野
への応用に極めて有効なベクトル量子化による分解能は
(固定端l1iJ伝送速度与えると)、ベクトルVの良
好な情報圧縮変換により改良されることができる。しか
しながら、現在のところ有効な変換方法はいまだ見いだ
されていない。 利用される情報伝送速度とベクトル量
子化器の分析上の要求に応じて、異なった構造の量子化
器を利用することができる。例えば、予測ベクトル量子
化器、多段ベクトル量子化器等が利用することができる
。マルチパルスベクトルを数値ベクトルとみなすと、単
純な重みを付けたユークリッド空間での距離がベクトル
量子化器の設計上の歪量として利用することができる。
各セルの中心・ベクトルは単紳な平均処理な施すことで
求められる。
オンラインマルチパルスベクトル符号化に対しては1、
各ヘクトルVは最初に式(21)で与え設計されたべり
l・ル量子電器により量子化される。
量子化されたべりトルはq (V) =  (q (m
、)、 。
−1+q(■L)、q(g+)1、1、、q(gL))
として表される。(夏号化側では、符号化されたマルチ
パルスベクトルはベクトルv= (mw −−mL、 
  g l+ −−、+ g L)として再構成される
ここで、 m、 = [q(m、)cr(m、)+E(m、)]q
、 = q(q、)q(G> q (G)はGの量子化された値を表しておL、最良の
励振信号を得るために行われる閉ループ処理により求め
られた利得項である。(、)は引数に最も近い整数を表
している。
一般に、2Lik元ベクトルは有効なベクトル量子化器
を股R1するのには余りに大きすぎるので、ベクトルを
づブベクトルに分割する必要がある。
さらに各→ノ°フベクトルは分離ベクトル量子化器を用
いて符号化される。   この点から、一定の情報伝送
速度を与えると、各フレームにおけるパルス数の増加と
マルチパルスベクトル量子化器の分解能の改良に関して
シスデム殺計上の折衷策があることが分かる。  最良
の折衷策は実験により見つけだすことができる。
マルチパルスベクトル量子化法はCELP符号化閲(も
しくは−股部なマルチパルス励振線形予測符号死語)用
の励振符号帳の設計に拡張することができる。目障とす
る情報伝送速度は4.8kbps、  これを達成する
ために、第一に性能向上のために励振符号帳の大きさを
増加し、第二に現フレーム用の(理想的な)非量子化マ
ルチパルスベクトルが励振高速tマ素処理のための参照
ベクトルとしてIll用できるようにマルチパルスベク
トル量子化処理の分解能を十分に高くM持することが目
障とされている。高速探索処理は小サブセットの候補励
振ヘクトルを選ぶために基準マルチベクトルを利用して
いる。このサブセットから最良の励振ベク)・ルを見つ
けだすために合成分析法が弓き続き行われる。二段階方
式のベクトル量子化処理と合成分析法の組み合わせを採
用する理由は、このような低速の情報伝送速度では、マ
ルチパルスベクトル量子化の分解能が比較的粗くなL、
(重み付けした)ユークリッド空間での距離という点か
らみた場合に基準マルチパルスベクトルに最近接してい
る励振ベクトルが、重み付け歪量という点からのみた場
合に原音声に最も近い再構成音声を作り出すための励振
ベクトルではなくなるからである。従って重要なことは
、符号語の性能を最大にする、設計上の妥協策を見いだ
すことである。
良好な一妥協策として、4.8kbpsでの目障とする
全ての情報伝送速度に対して各音声フレームでのパルス
F1.Lを、符号器の性能と高速探索のためのベクトル
量子化器の分解のという観点から、30に設定すること
である。ピッチフィルター更新速度を調和するために(
1フレームあたり3回)、各々t=L/3のパルスを持
つ3つのマルチパルス励振ベク]・ルを各フレーム毎に
求める。
変mされた各マルチパルスベクトルVは強度ベク分解さ
れている。二つの、8ピツト、10次元完全探索ベクト
ル量量子化器■ゆと■6を符号化するために各々用いら
れている。
異なる上記ベクトル の組み合わせを用いる場合、各組み合わせたベクトルV
−とV6のための励振符号帳の有効な大きさは25eX
25e=65,536となる。これは典型的なCE L
 P符号色間で用いられる励振符号帳(通常は1024
以下)の対応する大きさよりもかなり大きな1直である
。これに加えて、この場合での励振符号帳に対する計算
容量は(256+25f3)XI O=5120語であ
る。典型的なCELP符号化≧3で1吏用されているl
Oビットランダムガウス型符号帳に要求される語数(近
似的に1024X40=40960)に比べると、記憶
容量の少なさも重要な点である。
さらに、3つの励振サブフレームの各々のフレームにお
ける最良励振マルチパルスの探索を実行するために、2
段階の高速探索処理が続いて行われる。高速探f法のブ
ロシク図が図27で示されている。 最初に、現在のサ
ブフレームのt:めの非量子化マルチパルス信号である
基準マルチパルスベクトルが、前文で引用したアラゼッ
キ等による文献中に述べられた相互相関分析法を用いて
作成すれる。基準マルチベクトルは位置ベクトル■カと
強度ベクトル■6に分解され、さらにこれらのベクトル
はふたつの股言1されたベクトル量子化器を用いて強度
と位置の符号帳に従って量子化される。ベク)・ルV。
から予め定義した最小の歪量な有する N、fiNの符
号語と、ベクトルV、から予め定義された最小の歪量を
有するN2個の符号語が選ばれる。これによL、合計N
、XN2個の候補マルg++−、−+gL)が形成され
る。これらの励振ベクトルは一つずつ、CELP符号化
器で使用される合成分析処理を用いて、現在の励振サブ
フレームのための最良のマルチパルス励振ベクトルを選
び出すために試される。1フレーム(4つのサブフレー
ムと1024の励振符号ベクトルがあると仮定する)中
に4X1024の合成分析工程を必要とする典型的なC
ELP符号化器と比べて、上記方法では計算上の複雑さ
はかなり低減されている。さらに、マルチパルス励振を
使用することは、また、合成分析処理で必要な合成工程
を容易にしている。
ランタム励振符号帳を用いれは、CELP符号化器は4
.8kbpsでの良質な音声を作り出すことができるか
、自然音声に近い音質を作り出すことはほとんどできな
い。CELP音声符号化器の性能はマルチパルス励振符
号帳と上述した高速探索法を使用することで高めること
ができる。
符号化麗とIQ号化電器ブロック図を図18(a)と1
8(b)に示した。サンプリング速度は、1フレーム当
たり210のサンプル数を有するフレーム構造では8k
Hzでよい。また、4.8kbpsで、利用可能なデー
タビットは1フレーム当たり26ビツ1である。まず、
入力された音声信号が無音検出器200により音声フレ
ームか無音声フレームとして検出される。無声音フレー
ムの場合、全ての符号化/11号化処理が省略され、適
当なレベルの白色雑音のフレームが復号化側で作られる
。音声フレームに対しては、自己相関法に基づく線形T
−i1.1+分析を利用することで、10次スペクトル
フィルターの予測係数をハミング窓音声を用いて抽出す
る。ピッチ値並びにピッチフィルター係数が以下で述べ
る閉ループ処理に基づいて演算される。さらに、マルチ
パルスベクトルの生成を単純化するために、1次ピッチ
フィルターを用いる。
スペクトルフィルターはフレーム毎に一度更新され、ピ
ッデフイルターはフレーム毎に3回更新される。ピッデ
フイルターの安定性(不動性)はピッチフィルター係数
の大きさな制限することで制御されている。スペクトル
フィルターの安定性(不動性)は線スペクトル周波数の
自然順番付け処理(ナチュラルオーダリング)を確実に
することで制御されている。3つのマルチパルス励振ベ
クトルがスペクトルフィルターとピッチフィルターの組
み合わせインパルス応答を用いてフレーム毎に求められ
る。変換の後に、マルチパルスベクトルが前述したよう
に符号化される。しかるf&に、非量子化マルヂバルス
ベクトルを基準ベクトルとして用いた高速探索処理が行
われ、最良の励振信号が得られる。
スペクトルフィルターA (Z)の(糸数ベクトルが、
F、イタクラの°゛音声信号の線形予測係数の線スペク
トル表示″(日本音響学会u5”L、補遺No、1、5
35.  1975)及びG、 S、カングとL、  
J、  フランセルによる゛°線スペクトル周波数(L
SFs)に基づく低ビットレート用音声符号化器” (
NRL報告 8857.1984年11月)で開示され
ているように、線スペクトル周波数に変換され、しかる
後に二段階(10X10)ベクトル量子化器を用いた2
4ビットのインターフレーム予測により符号化される。
インターフレーム子1111は、M、ヤング、G、デビ
ッドソン並びにA、ガーンヨによるパ切り替え最適型イ
ンクフレームベクトル予it!I+ ヲ用いたLPGス
ペクトルパラメータの符号化”  (ICASSP、p
p401−405.1988)で報告されたものとMl
している。サンプル数が113−143の範囲にあるピ
ッチ値は7ビットにより各々直接的に符号化することが
できる。また、ピッチフィルター係数は各々5ビットに
よりスカラー量子化されることができる。マルチパルス
利得項も6ビットによりスカラー量子化が可能である。
3つのマルヂバルスベクトノし符号化に対しては48ビ
ットが割り当てられている。
復号化側では、マルチパルス励振信号が再構成され、ス
ペクトルフィルターとピッチフィルターを有する合成器
への入力信号として利用される。
典型的なCELP符号器と同様に、■、ラマムーシーと
N、  S、   ンエイアントによる′°適応型後段
フィルタ処理によるADPCM音声の向上゛(A T 
& A  ヘル研究所、ジャーナル、VolE13.N
o、8.I)I)、14e5−14751984 10
月)及びJ、l(、チェノ及びA。
ガーショによるパ適応型後段フィルタ処理を用いた4 
800 b I) Sでの実時間ベクトルAPC音声符
号化”(ICASSP、pp、   2185−218
8、  1987)で開示されている適応型後段フィル
ターを用いて知覚可能な程度に音質を向上させることが
できる。単純な利得制御法を用いて、出力音声のパワー
レベルを後段フィルター処理前のパワーレベルにほぼ等
しく維持することもできる。
比較のために、図10 (a)−10(d)で示された
符号化器/11号化処理用い、フレームの大きさをサン
プルF2220とした場合、4.8kbpsでのデータ
ビットの数は1フレーム当たり132ビットであった。
スペクトルフィルター係数は24ビットで符号化され、
ピッチ、ピッデフイルター、利1畳項、並びにに励振信
号は全て1フレーム当たり4回更新された。また、各々
7.5.6.9ビットで符号化された。使用された励振
信号は上述した分解マルチパルス励振モデルであった。
両符処理監の性能は、音声データベースモデルの内部と
外部の音声信号に対して実験的に評価されたが、非公式
的な聴覚テストによると、E−CELP方がCELPよ
りも幾分滑らかで明瞭であった。
マルチパルス励振法は有声音に対して周期的な励振成分
を作ることができるので、ピッチフィルターを省略する
ためにさらに改良が可能である。
1扛1立豆旦11 上述した実施例では、平均二乗誤差(MSE)歪量が高
速励振深索に利用されていた。MSEの欠点は2つあL
、一つはかなりの計算量が必要な点と、他の点はそれ自
身重み付けられていないので、全てのパルスが同一なも
のとして扱われてしまう点にある。しかしながら、主観
テストからは、マルチパルス励振ベクトルでの強度が大
きいパルスは再構成された音声の音質への寄与という観
点から重要なものであることが判明している。従・って
、重み付けしていないMSEによる歪量を利用すること
は妥当ではない。
この欠点を解決するために、ここでは単純な歪量を導入
する。計算を容易にするための絶対誤差なる概念を導入
しているので、特に動的重み付けをほどこした歪量を利
用している。パルス強度に応じて求められる動的重み付
けを利用することで、より大きな強度を有するパルスが
より忠実に再構成されることになることが確かめられる
。歪量Dと重み付け因子ω、は以下のように定義される
ここで、 ここで、Xwはマルチパルス強度(もしくは位置)ベク
トルの成分、y、はこれに対応するマルチパルス強度(
もしくは位置)の符号語の成分、gI、・・・はマルチ
パルス強度及び乙はマルチパルス強度(位置)ベクトル
の(火元を表している。高速探索処理の最初の工程で[
L較的粗く量子化された強度の低いパルスの再構成は高
速探索処理の第二の工程で考慮されている。
コンビュータノユミレーンヨンによL、重み付けされた
絶対誤差歪量と重み付けされたMSE歪量を用いた場合
では、これらの性能はほぼ同一であったが、前者の方が
計算上の撞雑さにおいてはかなり低減されていることが
分かっている。この場合も、高速探索処理の第一工程で
比較的粗く量子化された低強度のパルスの再構成が第二
の工程で考慮されている。
動的ビット割当 多数の無声音要素を含む発声音に対して、ピッチ合成器
は有効でないが、不変の音声要素に対してはかなり有効
なものであることが分かっている。
従って、低速の情報伝送速度で音声符号化/(夏処理器
の性能を高めるためには、ピッチ合成器と励振信号の音
質への1留性(を義、有効性)を調べることが有益であ
る。もしこれらが再構成された音声の音質にあまり影響
しないもの(有効でない)であれば、ピッ1データをこ
れらに依存するパラメータに割り当てる。
ピッチ合成器の影響性を検査する方法として、間ループ
法と開ループ法の2つの方法が提案されている。間ルー
プ法は閉ループ法に比べてあまり演算を必要としないが
、性能において劣っている。
ピッチ合成器の影響性検査のための間ループ法の原理が
図20に示されている。この方法で、特に残差信号r、
(n)とr2(n)の平均パワーが求められ、各々PI
、P2で表されている。もしP2>rPl  (rは設
計パラメータ、O<r<1)ならば、ピッチ合成器は影
響性がないと判定される。
ビッヂ合成2Nの影響性検査のための閉ループ法は図2
1に示されている。r、(n)は、ピッチ並びにスペク
トル合成器300及び310の記憶容量に起因する音声
信号とその応答とのズレ(差)に知覚可能な程度の重み
付けをしたものを表している。また、!・2(n)はス
ペクトル合成器312のみの記憶容量の起因した音声信
号とその応答とのズし・(差)に知覚可能な程度に重み
付けしたものな表している。P、とP2kより各々表さ
れる、r、(n)とr2cn)のパワーを求め、もしp
2>rP、  (rは設計パラメータ、0<r<i)で
あれば、ピッチ合成器を影響性なしと判定する。
ピッチ合成器の場合と同様、励振信号の影響性検査でも
間ループ法と閉ループ法の2つの方法が提案されておL
、間ループは演算の点では閉ループよりは容易だが、性
能の点では閉ループに劣っている。上述した高速励振探
索処理に利用されている基準マルヂバルスベクトルは相
互相関分析法により求められている。(0互相関とマル
ヂバルス抽出後の残差相互相関の流れが図22k示され
ている。この図よL、以下で示される励振信号の影響性
検査のための単純な開ループ法が利用できる。
すなわち、P1、P2で表されたr+(n)とr2(n
)の平均パワーを求め、もしP2>rP、もしくはPI
<Pr  (r、Prは設計パラメータ、Q<r<1)
であれば、励振信号は影響なしと判定される。
励振信号の影響性検査に対する閉ループ法が図23に示
されている。r、(n)は2つの合成フィルターによる
音声信号とGC5とのズレ(差)に知覚重み付けを行っ
たものである( C+は励振符号語で、Gは利得項であ
る)。また、r2(n)は2つの合成フィルターによる
音声信号とゼロ励振の応答とのズレ(差)に知覚重み付
けを行ったものである。Pi、P2kより表されたrl
(n)とr2(n)の各々の平均パワーを求め、さらに
もしP+>rP2であれば(rは設計パラメータであり
Q<r<1)、励振信号は影響性ありと判定される。
本発明の音声符号化/復号化器の一実施例ではピッチ合
成23と励振信号は1フレーム毎に数回(例えば3−4
回)同期して更新されている。これらの更新間隔はここ
ではサブフレームに対応している。各サブフレームでは
図24で示される3つの事象が有り得る。一つの事象は
、ピッチ合成器が影響性なしと判定される場合で、この
場合は励振信号は重要である(影響性あり)と判定され
る。第二のitとしては、ピッチ合成語と励振信号が共
に影響性ありと判定される場合である。第三の事象とし
ては、励振信号が影響性なしとして判定される場合であ
る。ピッチ合成器と励振信号が共に影響性なしと判定さ
れる事象はありえない。
これは10次スペクトル合成器は原音声信号に十分に適
合させることができないからである。
もし、特定のサブフレームでのピッチ合成器が影響性な
しと判定されるならば、これに割り当てられるビットは
ない。また、ピッチとピッチ利得のためのビットを含む
データビットB、は同一のサブフレームか引き続くサブ
フレームの内の一つのフレームのために除去記憶される
。もし、特定のサブフレームの励振信号が影響性なしと
判定されるならば、これに割り当てられるビットもない
利得環のための86ビットと励振それ自身のためのB、
ビットを含むデータビットBG+B、は引き続くサブフ
レームの内の一つの励振信号のために除去記憶される。
また、上述した3つの事象を各フレーム毎に特定するた
めに2ビットが割り当てられておL、さらに現在と引き
続くサブフレームで利用可能なL、とB。十B、の数を
特定するために送信側と受信側に2つのフラッグが同期
して保持されている。
引き続くサブフレームの励振信号のために記憶されたデ
ータビットが励振符号語C11lCI2の探索と利得環
G1、G、の演算にための二段階閉ループスキーム(数
字1.2は第−段階及び第二段階を表す)としてfll
用されている。第一段階では、図9で示される閉ループ
法が利用されている(ここで、l/P (z)、1/A
 (z)  及びW(z)はピッチ合成器、スペクトル
合成器及び知覚重み付けフィルターを各々表している。
また、Zw(n)はスペクトル合成器とピッチ合成器の
重み付けされた記憶を差し引いた/&の腫み付けされた
音声残差を表し、さらにYW(n)は励振信号GC,を
ゼロに設定されたピッチ合成器への通過応答を表してい
る。各符号語C8が試され、Zw(n)とYw(n)間
の最小二乗誤差歪量を作り出す符号語C0が最良の励振
符号語C1lとして選ばれる。しかる接、対応するi1
1得項がGlとして求められる。されに第二段階で同一
の処理がC1□と02を求めるために行われる。第一段
階と第二段階の唯一の相違は以下の点である。
(1)Zw(n)がスペクトル合成器、ピッチ合成語並
びに  (第一段階で選ばれた励振信号GいCI+によ
って作られた)Yw(n)の腫み付けされた記憶を差し
引いた後の重み付けされた音声残差である。
(2)図24で示される第二段階でのB、やB。
Boのような励を辰信号のために利用できる余剰のビッ
トに依存して、励振符合幅が異なる。もし、B、ビット
が利用できれば、同一の励振符合幅が第二段階でも利用
できる。もしB−Baビットが利用できれば〔通常はB
、−8゜はB、よりも小さい〕、2 ”個の符合語以外
の最初の28P−80個の符合語のみが使用されている
図24に戻って、ピッチ合成器が影響性なしと判定され
る第一の事象では、励振信号が重要なものとなる。従っ
て、もしB。十B、の余剰ビットが前のサブフレームか
ら入手可能なものであれば、ここでそれらを利用する。
入手不可能であれば、前のサブフレームもしくは現在の
サブフレームから記憶されたB、ビットが利用される。
また、ピッチ合成器と励振信号が共に影響性ありと判定
される第二の事象では、3つの場合が有り得る。すなわ
ち、前のサブフレームからはなんの余剰ビットも利用で
きない場合と、B、ビット利用できる場合と、  BG
+B−のピッ;・が利用できる場合である。
この場合、第二段階でゼロビットを割当で次のサブフレ
ームでの第一段階のために余剰のビットを除去記憶する
ようにしても良い。もしくは、両方のビットが利用でき
る場合、BO+B、のビットでなくB、のビットをfl
+用し、BG+B、は引き続くサブフレームでの第一段
階で利用するために記憶することも可能である。いずれ
にせよ、最良の選択は実験的に確かめることができる。
音声符号パラメーターの反復結合量 化法第2図に示さ
れた合成器の構成に適用すべき最適化法であって、II
I用できる伝送速度のものを行うためには、全パラメー
ターを演算して、原音声と再構成された音声との知覚可
能な程度に重みづけされた歪量を最小化する結合最適化
を行う必要がある。このパラメーターには、スペクトル
合成係数、ピッチ1直、ビッヂfI+得、励振符号語 
Cい利得型 G、ボスi・フィルター係数が含まれる。
しかし、かかる結合最適化法は、膨大な量の一連の非線
形方程式の解な求めなければならない。従って、この方
法によると、音質を極めて良好にすることができるが、
現実には、実施不可能なものである。
一方、音質をそれ程には良好なものとしない方法として
は、いくつかの準最適化方法がある。第25図は、その
−例を示すものである。この例では、結合最適画法はピ
ッチ合成語と励振信号のみを含むような規漠でおこなわ
れる。そして、直接結合最適化法の代わりに、反1!結
合最適化法が用いられる。まず、第10(b)図に示す
ように、初期化の為、ゼロ励振で、ピッチ値とピッチ利
得を閉ループ法で演算する。次に、ピッチ合成器を固定
して、閉ループ法で最適励振符号語C2とこれに対応す
る利得型Gを演算する。その後、第25図に示されたス
イッチを駆動して、図の下方のループを閉じる。この結
果、演算された最適励振(GC+)が今度は入力として
用いられ、ピッチ値とピッチ利得を再度演nする。この
操作は、歪量からみた音質についてもはや意味のある程
度の改良がなされなくなる、いわゆるしとい僅に達する
まで、続けられる。この反復方法を用いることによL、
演算をII IIにすることなく、再構成された音質を
良好にすることができる。
第26図に示すように、同様な操作は、第10(C)図
に示されたタイプのスペクトル合成語についても行わせ
ることができる。ここで、1/P(z)、1/Δ(Z)
、及び1/W(Z)は、それぞれ、ピッチ合成器、スペ
クトル合成語、及び、知覚可能に瓜み付けするフィルタ
を示し、式(6a)及び(6b)で定義されるものであ
る。そして、l/A (Z)及びW (Z)に対する結
合伝送関数は、以下の式で表されるl/A’  (Z)
である。
初期化のため、A (Z)は典型的な線形予測符号化法
によって1貫芹される。すなわち、自己相関法または共
変法を用いて演算する。A (Z)が与えられると、ピ
ッチ合成器は記述のように閉ループ法で演算する。そし
て、励振信号CI及び利得型Gを演算した後、再び、第
26図に示すように反復結合量適法をnlいてスペクト
ル合成器を再i*算する。この演算な簡単に行う為には
、出発点として、既に演算されたスペクトル合成器係数
(a、)を用いた佳、傾斜探索法を用いればよい。この
方法については、B、ウィドロー及びS、  D、  
ステアーンによる″適応型信号処理パ(プレンティスホ
ール、1985)に開示されている。この演算の結果、
5v(n)とY、(n)との間の歪を最小とする一郡の
IL数を新たに見つけることかできる。
以上の過程を式で表すと以下のようになる。
ここで、Nは、分析フレーム長である。そして、1渾が
移動するといった複雑な問題を回避するため、開ループ
法により演算されたスペクトル合成器係数に基づいて、
音声信号に対する重み付けフィルターW(Z)が固定し
ているものと仮定する。
そして、スペクトル合成器1/A (Z)に対する重み
づけフィルターW (Z)だけが、スペクトル合成2g
に同期して更t11されるものと仮定する。こうして、
ビッヂ合成器と励振信号が一定のしきい値の段階に達す
るまで再演算される。
尚、スペクトルフィルタでは、ピッチフィルターとは異
なL、その安定性を上記の再演算の間じゆう、維持しな
(Jればならない。また、ここに掃案じた反1夏結合f
zia化方法は、低伝送速度の音声符号語にも広く適用
できるものである。
適用型ボストフィルターp (z)は、次式によって表
される。
P(Z) ![(1−μ2 ) (Z/β)]A1 (Z/α) (22) ここで、 (Z) は である。
この式において、a、′は、スペクトルフィルタの予測
係数である。α、βおよびμは、設計定数であって、そ
れぞれ、0.7に+、0.5に+、及び、0.35に+
である。ここで、K、は、第一反射係数である。一方、
自動利得調整については。
そのブロック図を第19図に示す。ここで、ポストフィ
ルタ処理される前の音声信号の平均パワーは、ステップ
210で1宵算され、また、ポストフィルタ処理接の音
声信号の平均パワーは、ステップ212で演nされる。
この自動利得調整では、利得項は、音声信号のポストフ
ィルタ処理前後の平均パワーの比として、演算される。
再構成音声は、かかる利得項でポストフィルタ処理され
た各音声サンプルを、増倍することによって得ることに
なる。
尚、本発明は、以上詳述した実施例に限定されるもので
はなく、その趣旨を逸脱しない範囲において挿々の変更
を加えることがでとる。
[効果コ 本発明は、以上述べた特徴の一部または全部を有する符
号fシ′復処理雌をt1供するものであL、これらの特
徴によL、特に4.8kbsの範囲で優れた効果を発揮
させることがでとる。
【図面の簡単な説明】
第1図は、音声の合成による分析に基づいた符号化/(
ν帰化のtr号号器器側ブロック図、第2図は、音声の
合成による分析に基づいた符号化/II号化の陵処理訝
部のブロック図、第3図は1本発明による音声活動測定
を説明するフローチャー1・、 第4図(a)は、本発明によるフレーム間予測符号化構
成を説明するフローチャート、第4図(b)は、第4図
(a)のフレーム間予;(III符号化構成を更に説明
するブロック図、第5図は、符号化励振線形予−り法に
よる音声合成基のブロック図、 第6図は、本発明による閉ループピッチフィルター分析
の手順?説明するブロック図、第7図は、第6図のブロ
ック図と等価なプロ・ンク図、 第8図は、本発明による閉ループ励振符号語探索の手順
を説明するブロック図、 第9図は、第8図のブロック図と等価なブロック図、 第10図(a)、第10図(b)、第10図(c)、及
び、第10図(d)は、本発明による符号化励振線形予
♂11法による符号化器をまとめて説明する図、 第11図は、単位フレーム当たり4回のピッチフィルタ
ー更新周波数での閉ループ構成のピッチフィルター分析
法を用いた符号化式のS/N比を説明する図、 第12図は、単位フレーム当たり4回のピッチフィルタ
ー更新周波数を有する複数の符号化器のフレームS/N
比を説明する図であって、−の符号化器は間ループ構成
のピッチフィルター分析法を用い、他の−の符号化器は
閉ループ構成のピッチフィルター分析法を用いたもので
あるもの、第13図は、各励振符号語内のパルス数N、
が異なっているマルチパルス励振を用いた符号化器のフ
レームS/N比を説明する図、 第14図は、ガウス数で母集団化された符号帳を用いた
ーの符号化器と、マルチパルスベクトルで母集団化され
た符号帳を用いた他の−の符号化器とのフレームS/N
比を説明する図、第15図は、カラス数で母集団化され
た符号帳を用いたーの符号化器と、分解されたマルチパ
ルスベクトルで母集団化された符号帳を用いた他の−の
符号化器とのフレームS/N比を説明する図、第16図
は、マルチパルスベクトルで母集団化された符号帳を用
いたーの符号化器と、分解されたマルチパルス励振)・
ルで母集団化された符号帳を用いた他の−の符号化器と
のフレームS/N比を説明する図。 第17図は、本発明のマルチパルスベクトル生成方法の
ブロック図、 第18図(n)、及び、第18図(b)は、展開した励
振符号帳を用いた符号化弱な説明する図、第19図は、
本発明による自動利得制御方法を説明するブロック図、 第20図は、本発明によるピッチ合成器に対して行う間
ループ構成の影響性(有効性)試験の方法を説明する簡
単なブロック図、 第21図は、本発明によるピッチ合成器に対して行う閉
ループ構成の影響性(有効性)試験の方法を説明する簡
単なブロック図、 第22図は、マルチパルス励振信号に対する間ループ構
成の影響性(有効性)試験の方法を説明する図、 第23図は、励振信号筒対する間ループ構成の影響性(
有効性)試験の方法を説明する図、第24図は、本開明
による動的ビット割当方法を説明する図、 第25図は、本発明による反復結合最適化方法を説明す
る図、 第26図は、スペクトル合成語を含むように結合最適化
方法を応用する方法を説明する図、第27図は、本発明
による励振符号帳高速探索方法を説明する図である。 図中10・ 12・ 4 16. 20 ・ 4 2G ・ 28 ・ 32 ・ ・・音声検出回路、 ・・スペクトルフィルタ分析回路、 ・・スペクトルフィルタ符号化回路、 18・・・ピッチ/ピッチ利得 演算回路、 ・ ・H1l+辰符号帳、 ・・ピッチシンセサイザ ・スペクトルシンセサイザ、 知1を重み付け回路 ・fす得符号化回路。

Claims (42)

    【特許請求の範囲】
  1. (1)入力された音声信号をピッチ、ピッチ利得b、c
    _1、Gのような複数の符号化信号部に符号化する符号
    化装置であって、該符号化装置は、該符号化信号部のう
    ちのピッチ、ピッチ利得bのような少なくとも第1の符
    号化信号部を発生するため該入力音声信号に応答する第
    1の手段(16)と、 該複数の符号化信号部のうちc_1、Gのような少なく
    とも第2の符号化信号部を発生するため該入力音声信号
    と少なくとも該第1の符号化信号1とに応答する第2の
    手段(20〜32)を有し、該第1の手段は反復演算に
    よる最適化手段を有しており、該最適化手段は 励振信号が存在しないことを前提として該第1の符号化
    信号部の最適値を決定し、また該最適値に対応する第1
    の出力を発生する第1工程と、該第1の出力に基づき該
    第2の符号化信号部の最適値を決定し、また該最適値に
    対応する第2の出力を発生する第2工程と、 該第2の出力が励振信号であることを前提として該第1
    の符号化信号部の新たな最適値を決定し、また新たな最
    適値に対応する新たな第1の出力を発生する第3工程と
    、 該新たな第1の出力に基づき該第2の符号化信号部の新
    たな最適値を決定し、それに対応する第2の新たな出力
    を発生する第4工程と、 該第1、第2の符号化信号部の最適化がなされるまで該
    第3、第4工程を繰り返し行う第5工程とを実行するこ
    とを特徴とする符号化装置。
  2. (2)前記第2の手段は、前記音声信号の予測値を発生
    し該予測値と該入力音声信号とを比較することにより前
    記第2の符号化信号部を発生し、また、前記第3第4工
    程は該予測値と該入力信号との間の歪が最小となるまで
    繰り返し実行されることを特徴とする請求項1記載の符
    号化装置。
  3. (3)前記複数の符号化信号部はスペクトルフィルタ係
    数を包含しており、また前記反復演算による最適化手段
    は、最初に初期のスペクトルフィルタ係数群を演算し、
    次に前記第1工程から第5工程に基づいて得られた前記
    第1、第2の符号化信号部の最適値を誘導し、そして次
    に少なくとも該第1第2の最適化された符号化信号部と
    該初期のスペクトルフィルタ係数群とによりスペクトル
    フィルタ係数群の最適値を誘導するための手段を有する
    ことを特徴とする請求項1記載の符号化装置。
  4. (4)複数の連続的な分析期間を具備する原入力音声信
    号から各分析期間における予測係数群を誘導する工程と
    、該予測係数群を符号化して該予測係数群を符号表示化
    する工程と、該予測係数群の符号表示化値を復号器に転
    送し該予測係数の該符号表示化値に基づき原入力音声信
    号を合成する工程とを有する音声分析合成方法において
    、 特定の分析期間における該予測係数群をパラメータ群の
    うちのパラメータに変換してパラメータベクトルを生成
    する工程と、 該パラメータベクトルから多数の音声データベースによ
    り事前に決定されている実効ベクトルを減算する工程と
    、 ■_nを該特定の分析期間のときの予測パラメータベク
    トルとし、F_n_−_1を先行する直前の分析期間の
    ときのパラメータベクトルとし、Aを予測マトリクスと
    したとき、該多数の音声データベースにより事前に用意
    されている2^L入力のコードブックから、■_n=A
    F_n_−_1となるように予測マトリクスAを選択す
    る工程と、 該特定の分析期間の予測パラメータベクトルを演算し、
    また該予測パラメータベクトルと該パラメータベクトル
    との差分から構成される残差ベクトルを演算する工程と
    、 2^M第1の量子化ベクトル群のうちのいずれか1個を
    選択することにより初段ベクトル量子化器の該残差パラ
    メータベクトルを量子化して中間量子化ベクトルを得る
    工程と、 該中間量子化ベクトルと該残差パラメータベクトルとの
    差分により構成される残差量子化ベクトルを演算する工
    程と、 2^N第2の量子化ベクトル群のうちのいずれか1個を
    選択することにより第2段ベクトル量子化器の該中間量
    子化ベクトルを量子化して最終量子化ベクトルを得る工
    程と、 該予測マトリクスAを意味するLビット値と該中間量子
    化ベクトルを意味するMビット値と該最終量子化ベクト
    ルを意味するNビット値とを組み合わせることにより該
    予測係数の該符号化表示値を生成する工程とを有するこ
    とを特徴とする音声分析合成方法。
  5. (5)前記パラメータ群は線スペクトル周波数により構
    成されていることを特徴とする請求項4記載の音声分析
    合成方法。
  6. (6)前記L、M、Nがそれぞれ6ビット、10ビット
    、10ビットであることを特徴とする請求項4記載の音
    声分析合成方法。
  7. (7)複数の連続的な分析期間を具備する原入力音声信
    号から各分析期間における予測係数群を誘導する工程と
    、該予測係数群を符号化して該予測係数群を符号表示化
    する工程と、該予測係数群の符号表示化値を復号器に転
    送し該予測係数の該符号表示化値に基づき原入力音声信
    号を合成する工程とを有する音声分析合成方法において
    、 特定の分析期間の予測係数群に対応し各々が特定の周波
    数に対応する多成分入力ベクトルを生成する工程と、 量子化ベクトル記憶手段から複数の多成分量子化ベクト
    ルを選択することにより該入力ベクトルを量子化する工
    程と、各々の該入力ベクトル成分と各々の対応する選択
    された量子化ベクトル成分との差並びに各々の該入力ベ
    クトル成分に関連すし該入力ベクトル成分に対応する周
    波数に基づき各入力ベクトル成分ごとに決定される重み
    付けファクタとに基づいて、各々の選択された量子化ベ
    クトルについて歪量を演算する工程と、 量子化出力として該複数の選択された量子化ベクトルの
    うちのいずれか一つを選択して最小の歪量を得る工程と
    を有することを特徴とする音声分析合成方法。
  8. (8)前記重み付けファクタは、入力ベクトルのi番目
    の成分により表される周波数をf_iとし、f_iのグ
    ループ遅れを単位ミリ秒のD_iとし、D_m_a_x
    を最大のグループ遅れとしたとき、▲数式、化学式、表
    等があります▼ ただし、 ▲数式、化学式、表等があります▼ の式によってあらわさせることを特徴とする請求項7記
    載の音声分析合成方法。
  9. (9)前記歪量は、入力ベクトル成分群並びに選択され
    た量子化ベクトルの対応する成分をそれぞれX_i、γ
    _iとし、対応する重み付けファクタをωとしたとき、 ▲数式、化学式、表等があります▼ の式にてあらわされることを特徴とする請求項8記載の
    音声分析合成方法。
  10. (10)入力音声信号の複数の分析期間の各々について
    、各分析期間内に強度と位置を有する一連の励振パルス
    からなるマルチパルス励振信号を発生するための励振信
    号発生手段と、 該マルチパルス励振信号によってそれに引き続き音声信
    号を再生成する手段とを有する音声分析合成システムで
    あって、 該励振信号発生手段は複数のパルス強度符号語を記憶す
    る手段と、 複数のパルス位置符号語を記憶する手段と、励振パルス
    を形成するためにパルス強度符号語とパルス位置符号語
    を読み込む手段とを有することを特徴とする音声分析合
    成システム。
  11. (11)入力音声信号の複数の分析期間の各々について
    、各分析期間内に強度と位置を有する一連の励振パルス
    を表すマルチパルス励振ベクトルを発生する工程と、 該マルチパルス励振ベクトルによってそれに引き続き音
    声信号を再生成する工程とを有する音声分析合成方法で
    あって、 該マルチパルス励振ベクトルを発生する工程は記憶され
    ている複数のパルス位置符号語から特定のパルス位置符
    号語を選択する工程と、 記憶されている複数のパルス強度符号語から特定のパル
    ス強度符号語を選択する工程と、 該マルチパルス励振ベクトルを発生するために該パルス
    位置符号語とパルス強度符号語とを組み合わせる工程と
    を有することを特徴とする音声分析合成方法。
  12. (12)各々のマルチパルス励振ベクトルはV=(m_
    I、・・・、m_L、g_I、・・・、g_L)という
    式にて表され、ここでLは該ベクトルにより表される励
    振パルスの総数であり、m_Lとg_Lはそれぞれ該ベ
    クトル内のL番目の励振パルスに対応するパルス位置符
    号語とパルス強度符号語であり、更に、該パルス位置符
    号語を選択する工程は、I番目の励振パルスの位置と強
    度をそれぞれm_I、g_Iとしたときg_Iの絶対値
    が最大値となる分析期間内の位置m_Iを決定する工程
    と、 決定された値m_Iに基づきI番目の励振パルスのパル
    ス位置符号語m_Iを選択する工程とを有することを特
    徴とする請求項11記載の音声分析合成方法。
  13. (13)前記パルス強度符号語を選択する工程は、前記
    決定された位置M_Iに基づきI番目の励振パルスの強
    度g_Iを演算する工程を有することを特徴とする請求
    項12記載の音声分析合成方法。
  14. (14)前記音声信号は合成フィルタを用いて表され、 前記g_Iは、重み付けされた音声信号をX_w(n)
    とし、該合成フィルタの重み付けされたインパルスレス
    ポンスをh_w(n)としたとき ▲数式、化学式、表等があります▼ の式により与えられることを特徴とする請求項12記載
    の音声分析合成方法。
  15. (15)前記音声信号は合成フィルタを用いて表され、 前記g_Iは、該合成フィルタの重み付けされたインパ
    ルスレスポンスをh_w(n)とし、h_w(n)の自
    己相関をR_h_h(m)としh_w(n)とX_w(
    n)との間の相互相関をR_h_x(m)とし、重み付
    けされた音声信号をX_w(n)としたとき ▲数式、化学式、表等があります▼ の式により与えられることを特徴とする請求項12記載
    の音声分析合成方法。
  16. (16)前記パスル位置符号語を選択する工程は、前記
    合成フィルタの重み付けされたインパルスレスポンスh
    _w(n)と重み付けされた音声信号X_w(n)との
    間の相互相関をR_h_x(m)としたとき、R_h_
    x(m)が最大値となるときの分析期間内の位置m_1
    を決定する工程と、 決定された該位置m_1に基づきパルス位置符号語を選
    択する工程を有することを特徴とする請求項12記載の
    音声分析合成方法。
  17. (17)前記パルス強度符号語を選択する工程はh_w
    (O)の自己相関をR_h_h(O)としたときg_1
    =R_h_x(m_1)/R_h_h(O)の式に基づ
    く前記第1の励振パルスの強度g_1の値を決定する工
    程を有することを特徴とする請求項16記載の音声分析
    合成方法。
  18. (18)入力音声信号の複数の分析期間の各々について
    、各分析期間内に強度と位置を有する一連の励振パルス
    を表すマルチパルス励振ベクトルを発生する工程と、 該マルチパルス励振ベクトルを符号化する工程と、 該マルチパルス励振ベクトルを復号化する工程と、 該復号化されたマルチパルス励振ベクトルによってそれ
    に引き続き音声信号を再生成する工程とを有する音声分
    析合成方法であって、 該符号化工程は各マルチパルス励振ベクトルに関して各
    マルチパルス励振ベクトルと基準マルチパルス励振ベク
    トルとの差の関数である差分励振ベクトルを発生する工
    程と、 該差分励振ベクトルを量子化する工程とを有することを
    特徴とする音声分析合成方法。
  19. (19)各々のマルチパルス励振ベクトルはV=(m_
    i、・・・、m_L、g_i、・・・、g_L)という
    式にて表され、ここでLは該ベクトルにより表される励
    振パルスの総数であり、m_iとg_iは(ただし1≦
    i≦L)それぞれ該ベクトル内のi番目の励振パルスに
    対応するパルス位置符号語とパルス強度符号語であり、 更に、多数の音声データベースより事前に得られた第1
    第2の基準ベクトルV’=(m’_1、・・・、m’_
    L’、g_I’、・・・g’_LとV”=(m”_1、
    ・・・m”_L、g”_1、・・・g”_L)とから導
    出された値をm’_1、m’とし、Gを ▲数式、化学式、表等があります▼ の式により与えられた利得項であるとして、■_1と■
    _1がm_1=(m_1−m’_1)/m”_1)並び
    に■_1=g_1/Gの関係を有するとき、前記差分励
    振ベクトルは、 ■=(■_1、・・・、■_L、■_1、・・・、■_
    L)の式にて表されることを特徴とする請求項18記載
    の音声分析合成方法。
  20. (20)前記M’_1は、前記多数の音声データベース
    内のすべての値m_1の平均値であることを特徴とする
    請求項19記載の音声分析合成方法。
  21. (21)前記m”_1は多数の音声データベース内のす
    べての値m_1の標準偏差値であることを特徴とする請
    求項20記載の音声分析合成方法。
  22. (22)前記符号化工程は、前記差分ベクトルを位置サ
    ブベクトル(■_1、・・・■_L)と強度ベクトル(
    ■_1、・・・■_L)とに分離する工程と、しかる後
    に第1の量子化器において該位置サブベクトルを第2の
    量子化器において該強度サブベクトルを量子化する工程
    とを更に有することを特徴とする請求項19記載の音声
    分析合成方法。
  23. (23)入力音声信号の複数の分析期間の各々について
    、Lをベクトルにより表される励振パルスの総数とし、
    m_1とg_1を1≦i≦Lの条件のもとでそれぞれ該
    ベクトル内のi番目の励振パルスに対応する位置関連項
    と強度関連項としたとき、各分析期間内に強度と位置を
    有する一連の励振パルスを表しているV=(m_1、・
    ・・、m_L、g_1、・・・、g_L)という式にて
    示されるベクトルを発生する工程と、 該ベクトルを符号化する工程と、 該符号化されたベクトルを復号化する工程と、該復号化
    されたベクトルによって引き続き音声信号を再生成する
    工程とを有する音声分析合成方法であって、 該符号化工程は、該ベクトルを位置サブベクトル(■_
    1、・・・■_L)と強度ベクトル(■_1、・・・■
    _L)とに分離する工程と、しかる後に第1の量子化器
    において該位置サブベクトルを第2の量子化器において
    該強度サブベクトルを量子化する工程とを有することを
    特徴とする音声分析合成方法。
  24. (24)Lをベクトルにより表される励振パルスの総数
    とし、m_1とg_1を1≦i≦Lの条件のもとでそれ
    ぞれ該ベクトル内のi番目の励振パルスに対応する位置
    関連項と強度関連項としたとき、前記各々のマルチパル
    ス励振ベクトルは V=(m_1、・・・、m_L、g_1、・・・、g_
    L)という式にて表され、 前記音声分析合成方法は、該ベクトルを符号化する工程
    と、前記再生成工程以前に該ベクトルを復号化する工程
    とを更に有し、 該符号化工程は該ベクトルVから位置基準サブベクトル
    ■_mと強度基準サブベクトル■_■とを生成する工程
    と、 該位置基準サブベクトルに基づき位置符号帳より複数の
    位置符号語を選択する工程と、 該強度基準サブベクトルに基づき強度符号帳より複数の
    強度符号語を選択する工程と、 該選択された位置符号語並びに強度符号語の種々の組み
    合わせにより複数の位置符号語強度符号語組を生成する
    工程と、 該マルチパルス励振ベクトルと各々の該位置符号語強度
    符号語組との間の歪量を演算する工程と、最小の歪量を
    もたらす特定の位置符号語強度符号語組を選択する工程
    とを有することを特徴とする請求項11記載の音声分析
    合成方法。
  25. (25)入力音声信号の複数の分析期間の各々について
    、Lをベクトルにより表される励振パルスの総数とし、
    m_1とg_1を1≦i≦Lの条件のもとでそれぞれ該
    ベクトル内のi番目の励振パルスに対応する位置関連項
    と強度関連項としたとき、各分析期間内に強度と位置を
    有する一連の励振パルスを表しているV=(m_1、・
    ・・、m_L、g_1、・・・、g_L)という式にて
    示されるベクトルを発生する工程と、 該ベクトルを符号化する工程と、 該符号化されたベクトルを復号化する工程と、該復号化
    されたベクトルに基づき引き続き該音声信号を再生成す
    る工程とを有する音声分析合成方法であって、 該符号化工程は該ベクトルVから位置基準サブベクトル
    ■_mと強度基準サブベクトル■_■とを生成する工程
    と、 該位置基準サブベクトルに基づき位置符号帳より複数の
    位置符号語を選択する工程と、 該強度基準サブベクトルに基づき強度符号帳より複数の
    強度符号語を選択する工程と、 該選択された位置符号語並びに強度符号語の種々の組み
    合わせにより複数の位置符号語強度符号語組を生成する
    工程と、 該ベクトルと各々の該位置符号語強度符号語組との間の
    歪量を演算する工程と、 最小の歪量をもたらす特定の位置符号語強度符号語組を
    選択する工程とを有することを特徴とする音声分析合成
    方法。
  26. (26)前記歪量は、動的に重み付けされた歪量であり
    、該動的重み付けされた歪量は、各々の位置符号語強度
    符号語組における各々の強度項の強度の関数である重み
    付け関数に基づいて重み付けされていることを特徴とす
    る請求項25記載の音声分析合成方法。
  27. (27)前記ベクトルの成分をx_1とし、それに対応
    する位置符号語強度符号語組の成分をy_1とし、それ
    らにより ▲数式、化学式、表等があります▼ の式によって与えられる重み付け関数をω_1としたと
    き、前記動的に重み付けされた歪量Dは ▲数式、化学式、表等があります▼ の式によって与えられることを特徴とする請求項26記
    載の音声分析合成方法。
  28. (28)入力信号から、ピッチ値とピッチ利得値とを含
    むピッチ信号部と励振符号語と励振利得信号とを含む励
    振信号部とから少なくとも構成される複数の分析信号を
    生成する工程と、該分析信号を符号化する工程と、それ
    に引き続き該分析信号を復号化する工程と、該復号化さ
    れた分析信号に基づいて該音声信号を合成する工程とを
    有する音声分析合成方法であって、 該符号化工程は、各々の該ピッチ信号部と該励振信号部
    とが有効か否かを類別する工程と、該類別工程の類別結
    果に基づき多数の符号ビットを各々の該ピッチ信号部並
    びに利得信号部に割り当てる工程と、 割り当てられた多数のビットに基づき各々の該ピッチ信
    号と励振信号とを符号化する工程とを有することを特徴
    とする音声分析合成方法。
  29. (29)前記割当工程は、有効であると類別されたピッ
    チ信号部に対しては有効でないと類別されたピッチ信号
    部に対するよりもより多くのビット数を割当てる工程と
    、有効であると類別された励振信号部に対しては有効で
    ないと類別された励振信号部に対するよりもより多くの
    ビット数を割当てる工程とを有していることを特徴とす
    る請求項28記載の音声分析合成方法。
  30. (30)前記割当工程は、有効でないと類別されたピッ
    チ信号部に対してはゼロビット数を割当てる工程と、有
    効でないと類別された励振信号部に対してはゼロビット
    数を割当てる工程とを有していることを特徴とする請求
    項29記載の音声分析合成方法。
  31. (31)それぞれの複数の連続的な間隔に亘って入力信
    号の音声または非音声特性を決定するために音声部並び
    に非音声部とを有する入力信号を符号化する装置に用い
    られる音声変動検出装置であって、 該間隔のうちの特定の間隔にわたり該入力信号の平均の
    エネルギーを決定する手段と、 所定数の間隔にわたり該平均エネルギーの最小値を決定
    する手段と、 該最小値に基づいてしきい値を決定する手段と、該特定
    の間隔の入力信号が音声かまたは非音声かを決定するた
    めに、該特定の間隔にわたる入力信号の平均のエネルギ
    ーと該しきい値とを比較する手段とを有することを特徴
    とする音声変動検出装置。
  32. (32)前記特定の間隔は、所定数の間隔のうちの最後
    の間隔であることを特徴とする請求項31記載の音声変
    動検出装置。
  33. (33)前記しきい値が平均のエネルギーを越えている
    一連の間隔数に基づいてハングオーバー値を設定するた
    めに、前記特定のフレームにおける平均のエネルギーが
    該しきい値を越えているとの決定応答する手段と、 該ハングオーバー値が所定の値である場合には該入力信
    号が非音声部を表してるという内容を決定するために、
    該特定の間隔の平均のエネルギーが該しきい値を越えて
    いないとの決定に応答し、該しきい値が所定の値でない
    ときは該ハングオーバー値を減少させる手段とを更に有
    していることを特徴とする請求項31記載の音声変動検
    出装置。
  34. (34)入力信号の音声間隔と非音声間隔とを区別する
    為の音声検出装置において、 現在の間隔の入力信号が少なくとも音声表示信号の第1
    の基準特性に合致しているか否かを決定する第1の手段
    と、 該入力信号が該第1の基準特性を満たしていたと決定さ
    れる一連の多数の間隔に基づいて所定のハングオーバー
    時間を設定するために、該第1の手段による音声内容の
    決定に反応する第2の手段と、 該基準が満たされなかった一連の多数の間隔、並びに該
    第2の手段により設定されたハングオーバー時間に基づ
    いて、非音声であるとの決定をするために第1の手段に
    より該入力信号が該基準を満たしていないという決定結
    果に反応する第3の手段とを有することを特徴とする音
    声検出装置。
  35. (35)各々のフレームには第1部分、第2部分、第3
    部分を有しており、現在のフレーム、前回のフレーム、
    次回のフレームを含んだ複数の連続的なフレーム群を有
    する原入力信号から各フレームの合成パラメータ群を導
    く工程と、 該合成パラメータを復号器に転送する工程と、該合成パ
    ラメータにより原入力音声信号を合成する工程とを有す
    る音声分析合成方法において、該合成パラメータを導く
    符号化工程は、 該入力信号の各フレームに対応する第1のパラメータ群
    を形成する工程を有し、一定のフレームの該1のパラメ
    ータ群の各々は該一定のフレームの該第1、第2、第3
    部分に対応する第1、第2、第3の副群を有しており、
    更に 現在の該第1の副群と前回の第1の副群との間を補間す
    ることにより補間された第1のパラメータ副群を形成す
    る工程と、 現在の該第3の副群と次回の第3の副群との間を補間す
    ることにより補間された第3のパラメータ副群を形成す
    る工程と、 現在のフレームの合成パラメータ群を形成するために、
    該補間された第1の副群と、該第2の副群と、該補間さ
    れた第3の副群とを組み合わせる工程とを有することを
    特徴とする音声分析合成方法。
  36. (36)前記第1のパラメータ群は線スペクトル周波数
    であることを特徴とする請求項35記載の音声分析合成
    方法。
  37. (37)一連の複数のフレームを有する原入力信号から
    各フレームに関するスペクトルフィルタ係数群を導出す
    る工程と、 該スペクトルフィルタ係数をnを整数とするn秩序周波
    数パラメータ群(f_1、f_2、・・・、f_n)に
    変換する工程と、 例えばf_1<f_I−1のように大きさの順序が乱さ
    れているか否かを決定する工程と、 もし大きさの順序が乱されている場合には2個の周波数
    f_1とf_I_1との順序を逆にする工程と、該周波
    数パラメータをスペクトルフィルタ係数に逆変換する工
    程と、 該逆変換工程により得られたスペクトルフィルタ係数に
    基づいて、該原入力信号を合成する工程とを有すること
    を特徴とする音声分析合成方法。
  38. (38)前記周波数パラメータは線スペクトル周波数で
    あることを特徴とする音声分析合成方法。
  39. (39)入力信号から、ピッチ値とピッチ利得値と励振
    符号語と励振利得信号とを少なくとも有している複数の
    分析信号を生成する工程と、該分析信号を量子化する工
    程と、該量子化された分析信号を復号器に与える工程と
    、復号器において量子化された信号に基づき該音声信号
    を合成する工程とを有する音声分析合成方法であって、 該量子化工程は、類別値をm量子化ビットで表し、mを
    整数とするとき、該ピッチ値を複数の2^mの値の範囲
    のいずれかに類別することにより該ピッチ値を直接量子
    化する工程と、 選択された符号語をn量子化ビットで表し、nを整数と
    するとき、2^n符号語から対応する符号語を選択する
    ことにより該ピッチ利得を量子化する工程とを有するこ
    とを特徴とする音声分析合成方法。
  40. (40)n<mの関係を有することを特徴とする請求項
    39記載の音声分析合成方法。
  41. (41)2^k符号語から該励振符号語が選ばれ、前記
    量子化工程は、2^k符号語のいずれかを意味するkビ
    ットにて該励振符号語を表す工程と、 選択された励振利得符号語をι量子化ビットで表し、ι
    を整数とするとき、前もって演算された2^ι励振利得
    符号語から対応する符号語を選択することにより該励振
    利得を量子化する工程とを更に有することを特徴とする
    請求項39記載の音声分析合成方法。
  42. (42)ι<kの関係を有していることを特徴とする請
    求項41記載の音声分析合成方法。
JP2333475A 1989-11-29 1990-11-29 4.8kbpsの情報伝送速度を有する音声符号化/復号化器 Pending JPH03211599A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US442830 1989-11-29
US07/442,830 US5307441A (en) 1989-11-29 1989-11-29 Wear-toll quality 4.8 kbps speech codec

Publications (1)

Publication Number Publication Date
JPH03211599A true JPH03211599A (ja) 1991-09-17

Family

ID=23758326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2333475A Pending JPH03211599A (ja) 1989-11-29 1990-11-29 4.8kbpsの情報伝送速度を有する音声符号化/復号化器

Country Status (5)

Country Link
US (1) US5307441A (ja)
JP (1) JPH03211599A (ja)
AU (2) AU652134B2 (ja)
CA (1) CA2031006C (ja)
GB (1) GB2238696B (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008504578A (ja) * 2004-06-30 2008-02-14 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル出力信号を発生するためのマルチチャネルシンセサイザおよび方法
JP2008134649A (ja) * 1995-10-26 2008-06-12 Sony Corp 音声信号の再生方法及び装置
JP2012507752A (ja) * 2008-10-30 2012-03-29 クゥアルコム・インコーポレイテッド 低ビットレート適用例のためのコーディングスキーム選択
JP2013525848A (ja) * 2010-04-22 2013-06-20 クゥアルコム・インコーポレイテッド ボイスアクティビティ検出
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
JP2021529340A (ja) * 2018-06-29 2021-10-28 ホアウェイ・テクノロジーズ・カンパニー・リミテッド ステレオ信号符号化方法および装置、ならびにステレオ信号復号方法および装置

Families Citing this family (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2010830C (en) * 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
US5701392A (en) * 1990-02-23 1997-12-23 Universite De Sherbrooke Depth-first algebraic-codebook search for fast coding of speech
US5754976A (en) * 1990-02-23 1998-05-19 Universite De Sherbrooke Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech
US6006174A (en) 1990-10-03 1999-12-21 Interdigital Technology Coporation Multiple impulse excitation speech encoder and decoder
DE69232202T2 (de) * 1991-06-11 2002-07-25 Qualcomm, Inc. Vocoder mit veraendlicher bitrate
JPH0612098A (ja) * 1992-03-16 1994-01-21 Sanyo Electric Co Ltd 音声符号化装置
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
JP2947685B2 (ja) * 1992-12-17 1999-09-13 シャープ株式会社 音声コーデック装置
JPH06250697A (ja) * 1993-02-26 1994-09-09 Fujitsu Ltd 音声符号化方法及び音声符号化装置並びに音声復号化方法及び音声復号化装置
JP2658816B2 (ja) * 1993-08-26 1997-09-30 日本電気株式会社 音声のピッチ符号化装置
US5651071A (en) * 1993-09-17 1997-07-22 Audiologic, Inc. Noise reduction system for binaural hearing aid
AU7960994A (en) * 1993-10-08 1995-05-04 Comsat Corporation Improved low bit rate vocoders and methods of operation therefor
US5673364A (en) * 1993-12-01 1997-09-30 The Dsp Group Ltd. System and method for compression and decompression of audio signals
JP2906968B2 (ja) * 1993-12-10 1999-06-21 日本電気株式会社 マルチパルス符号化方法とその装置並びに分析器及び合成器
JP2616549B2 (ja) * 1993-12-10 1997-06-04 日本電気株式会社 音声復号装置
AU684872B2 (en) * 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
US5568588A (en) * 1994-04-29 1996-10-22 Audiocodes Ltd. Multi-pulse analysis speech processing System and method
US5544278A (en) * 1994-04-29 1996-08-06 Audio Codes Ltd. Pitch post-filter
JP2970407B2 (ja) * 1994-06-21 1999-11-02 日本電気株式会社 音声の励振信号符号化装置
US5742734A (en) 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
JP2964879B2 (ja) * 1994-08-22 1999-10-18 日本電気株式会社 ポストフィルタ
DE4446558A1 (de) * 1994-12-24 1996-06-27 Philips Patentverwaltung Digitales Übertragungssystem mit verbessertem Decoder im Empfänger
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
JP3303580B2 (ja) * 1995-02-23 2002-07-22 日本電気株式会社 音声符号化装置
JP2993396B2 (ja) * 1995-05-12 1999-12-20 三菱電機株式会社 音声加工フィルタ及び音声合成装置
FR2734389B1 (fr) * 1995-05-17 1997-07-18 Proust Stephane Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
US5668925A (en) * 1995-06-01 1997-09-16 Martin Marietta Corporation Low data rate speech encoder with mixed excitation
US5649051A (en) * 1995-06-01 1997-07-15 Rothweiler; Joseph Harvey Constant data rate speech encoder for limited bandwidth path
US5822724A (en) * 1995-06-14 1998-10-13 Nahumi; Dror Optimized pulse location in codebook searching techniques for speech processing
US5774593A (en) * 1995-07-24 1998-06-30 University Of Washington Automatic scene decomposition and optimization of MPEG compressed video
JP3522012B2 (ja) * 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
US6064962A (en) * 1995-09-14 2000-05-16 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
JP3653826B2 (ja) * 1995-10-26 2005-06-02 ソニー株式会社 音声復号化方法及び装置
JP3680380B2 (ja) * 1995-10-26 2005-08-10 ソニー株式会社 音声符号化方法及び装置
US5867814A (en) * 1995-11-17 1999-02-02 National Semiconductor Corporation Speech coder that utilizes correlation maximization to achieve fast excitation coding, and associated coding method
US6393391B1 (en) * 1998-04-15 2002-05-21 Nec Corporation Speech coder for high quality at low bit rates
FR2742568B1 (fr) * 1995-12-15 1998-02-13 Catherine Quinquis Procede d'analyse par prediction lineaire d'un signal audiofrequence, et procedes de codage et de decodage d'un signal audiofrequence en comportant application
US5819213A (en) * 1996-01-31 1998-10-06 Kabushiki Kaisha Toshiba Speech encoding and decoding with pitch filter range unrestricted by codebook range and preselecting, then increasing, search candidates from linear overlap codebooks
GB2312360B (en) * 1996-04-12 2001-01-24 Olympus Optical Co Voice signal coding apparatus
JP3094908B2 (ja) * 1996-04-17 2000-10-03 日本電気株式会社 音声符号化装置
US5960386A (en) * 1996-05-17 1999-09-28 Janiszewski; Thomas John Method for adaptively controlling the pitch gain of a vocoder's adaptive codebook
DE69717359T2 (de) * 1996-07-29 2003-04-30 Matsushita Electric Industrial Co., Ltd. Verfahren zur Komprimierung und Dekomprimierung von eindimensionalen Zeitserien
DE69737012T2 (de) * 1996-08-02 2007-06-06 Matsushita Electric Industrial Co., Ltd., Kadoma Sprachkodierer, sprachdekodierer und aufzeichnungsmedium dafür
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
US6014622A (en) 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
FI964975A7 (fi) * 1996-12-12 1998-06-13 Nokia Mobile Phones Ltd Menetelmä ja laite puheen koodaamiseksi
US7024355B2 (en) * 1997-01-27 2006-04-04 Nec Corporation Speech coder/decoder
US6345246B1 (en) * 1997-02-05 2002-02-05 Nippon Telegraph And Telephone Corporation Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates
JP3067676B2 (ja) * 1997-02-13 2000-07-17 日本電気株式会社 Lspの予測符号化装置及び方法
US6161089A (en) * 1997-03-14 2000-12-12 Digital Voice Systems, Inc. Multi-subframe quantization of spectral parameters
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
DE69831991T2 (de) * 1997-03-25 2006-07-27 Koninklijke Philips Electronics N.V. Verfahren und Vorrichtung zur Sprachdetektion
JP3063668B2 (ja) * 1997-04-04 2000-07-12 日本電気株式会社 音声符号化装置及び復号装置
US5893056A (en) * 1997-04-17 1999-04-06 Northern Telecom Limited Methods and apparatus for generating noise signals from speech signals
IL120788A (en) * 1997-05-06 2000-07-16 Audiocodes Ltd Systems and methods for encoding and decoding speech for lossy transmission networks
US5983183A (en) * 1997-07-07 1999-11-09 General Data Comm, Inc. Audio automatic gain control system
TW408298B (en) * 1997-08-28 2000-10-11 Texas Instruments Inc Improved method for switched-predictive quantization
US6889185B1 (en) * 1997-08-28 2005-05-03 Texas Instruments Incorporated Quantization of linear prediction coefficients using perceptual weighting
CA2275266C (en) * 1997-10-22 2005-06-14 Matsushita Electric Industrial Co., Ltd. Speech coder and speech decoder
CN1192358C (zh) * 1997-12-08 2005-03-09 三菱电机株式会社 声音信号加工方法和声音信号加工装置
US6810377B1 (en) * 1998-06-19 2004-10-26 Comsat Corporation Lost frame recovery techniques for parametric, LPC-based speech coding systems
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
US6493665B1 (en) * 1998-08-24 2002-12-10 Conexant Systems, Inc. Speech classification and parameter weighting used in codebook search
US6823303B1 (en) * 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
KR100300963B1 (ko) * 1998-09-09 2001-09-22 윤종용 연결스칼라양자화기
US6711540B1 (en) * 1998-09-25 2004-03-23 Legerity, Inc. Tone detector with noise detection and dynamic thresholding for robust performance
DE19845888A1 (de) * 1998-10-06 2000-05-11 Bosch Gmbh Robert Verfahren zur Codierung oder Decodierung von Sprachsignalabtastwerten sowie Coder bzw. Decoder
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US6226607B1 (en) * 1999-02-08 2001-05-01 Qualcomm Incorporated Method and apparatus for eighth-rate random number generation for speech coders
US6246978B1 (en) * 1999-05-18 2001-06-12 Mci Worldcom, Inc. Method and system for measurement of speech distortion from samples of telephonic voice signals
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
EP1132892B1 (en) * 1999-08-23 2011-07-27 Panasonic Corporation Speech encoding and decoding system
KR100304666B1 (ko) * 1999-08-28 2001-11-01 윤종용 음성 향상 방법
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
US6842733B1 (en) 2000-09-15 2005-01-11 Mindspeed Technologies, Inc. Signal processing system for filtering spectral content of a signal for speech coding
US6850884B2 (en) * 2000-09-15 2005-02-01 Mindspeed Technologies, Inc. Selection of coding parameters based on spectral content of a speech signal
EP1199812A1 (en) 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Perceptually improved encoding of acoustic signals
US20030097267A1 (en) * 2001-10-26 2003-05-22 Docomo Communications Laboratories Usa, Inc. Complete optimization of model parameters in parametric speech coders
WO2003067792A1 (en) * 2002-02-04 2003-08-14 Mitsubishi Denki Kabushiki Kaisha Digital circuit transmission device
JP4299676B2 (ja) * 2002-02-20 2009-07-22 パナソニック株式会社 固定音源ベクトルの生成方法及び固定音源符号帳
CN100361198C (zh) * 2002-09-17 2008-01-09 皇家飞利浦电子股份有限公司 一种清音语音信号合成的方法
US7693921B2 (en) * 2005-08-18 2010-04-06 Texas Instruments Incorporated Reducing computational complexity in determining the distance from each of a set of input points to each of a set of fixed points
CN101335004B (zh) * 2007-11-02 2010-04-21 华为技术有限公司 一种多级量化的方法及装置
CN101599272B (zh) * 2008-12-30 2011-06-08 华为技术有限公司 基音搜索方法及装置
CN103928031B (zh) 2013-01-15 2016-03-30 华为技术有限公司 编码方法、解码方法、编码装置和解码装置
US10531099B2 (en) * 2016-09-30 2020-01-07 The Mitre Corporation Systems and methods for distributed quantization of multimodal images

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4184049A (en) * 1978-08-25 1980-01-15 Bell Telephone Laboratories, Incorporated Transform speech signal coding with pitch controlled adaptive quantizing
US4410763A (en) * 1981-06-09 1983-10-18 Northern Telecom Limited Speech detector
JPS59139099A (ja) * 1983-01-31 1984-08-09 株式会社東芝 音声区間検出装置
US4821325A (en) * 1984-11-08 1989-04-11 American Telephone And Telegraph Company, At&T Bell Laboratories Endpoint detector
IT1195350B (it) * 1986-10-21 1988-10-12 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante estrazione di para metri e tecniche di quantizzazione vettoriale
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
US4899385A (en) * 1987-06-26 1990-02-06 American Telephone And Telegraph Company Code excited linear predictive vocoder
US4896361A (en) * 1988-01-07 1990-01-23 Motorola, Inc. Digital speech coder having improved vector excitation source

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008134649A (ja) * 1995-10-26 2008-06-12 Sony Corp 音声信号の再生方法及び装置
JP2008504578A (ja) * 2004-06-30 2008-02-14 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル出力信号を発生するためのマルチチャネルシンセサイザおよび方法
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
JP2012507752A (ja) * 2008-10-30 2012-03-29 クゥアルコム・インコーポレイテッド 低ビットレート適用例のためのコーディングスキーム選択
JP2013525848A (ja) * 2010-04-22 2013-06-20 クゥアルコム・インコーポレイテッド ボイスアクティビティ検出
US9165567B2 (en) 2010-04-22 2015-10-20 Qualcomm Incorporated Systems, methods, and apparatus for speech feature detection
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
JP2021529340A (ja) * 2018-06-29 2021-10-28 ホアウェイ・テクノロジーズ・カンパニー・リミテッド ステレオ信号符号化方法および装置、ならびにステレオ信号復号方法および装置
US11462223B2 (en) 2018-06-29 2022-10-04 Huawei Technologies Co., Ltd. Stereo signal encoding method and apparatus, and stereo signal decoding method and apparatus
US11790923B2 (en) 2018-06-29 2023-10-17 Huawei Technologies Co., Ltd. Stereo signal encoding method and apparatus, and stereo signal decoding method and apparatus
US12148436B2 (en) 2018-06-29 2024-11-19 Huawei Technologies Co., Ltd. Stereo signal encoding method and apparatus, and stereo signal decoding method and apparatus

Also Published As

Publication number Publication date
CA2031006A1 (en) 1991-05-30
GB2238696A (en) 1991-06-05
US5307441A (en) 1994-04-26
AU652134B2 (en) 1994-08-18
AU6707490A (en) 1991-06-06
GB9025960D0 (en) 1991-01-16
AU6485894A (en) 1994-09-01
GB2238696B (en) 1994-05-11
CA2031006C (en) 1994-06-14

Similar Documents

Publication Publication Date Title
JPH03211599A (ja) 4.8kbpsの情報伝送速度を有する音声符号化/復号化器
US7496506B2 (en) Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
CA2140329C (en) Decomposition in noise and periodic signal waveforms in waveform interpolation
US11721349B2 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
KR100304682B1 (ko) 음성 코더용 고속 여기 코딩
US5293449A (en) Analysis-by-synthesis 2,4 kbps linear predictive speech codec
US6782359B2 (en) Determining linear predictive coding filter parameters for encoding a voice signal
US20060064301A1 (en) Parametric speech codec for representing synthetic speech in the presence of background noise
US20050053130A1 (en) Method and apparatus for voice transcoding between variable rate coders
US9972325B2 (en) System and method for mixed codebook excitation for speech coding
JPH08248996A (ja) ディジタルフィルタのフィルタ係数決定方法
JPH11249699A (ja) 音声パラメータの合同量子化
US7584095B2 (en) REW parametric vector quantization and dual-predictive SEW vector quantization for waveform interpolative coding
WO2004090864A2 (en) Method and apparatus for the encoding and decoding of speech
JPH09258795A (ja) ディジタルフィルタおよび音響符号化/復号化装置
KR100465316B1 (ko) 음성 부호화기 및 이를 이용한 음성 부호화 방법
Özaydın et al. Matrix quantization and mixed excitation based linear predictive speech coding at very low bit rates
Shlomot et al. Hybrid coding: combined harmonic and waveform coding of speech at 4 kb/s
US7643996B1 (en) Enhanced waveform interpolative coder
Gottesmann Dispersion phase vector quantization for enhancement of waveform interpolative coder
JP3194930B2 (ja) 音声符号化装置
Tseng An analysis-by-synthesis linear predictive model for narrowband speech coding
JP3520955B2 (ja) 音響信号符号化法
JP2000305597A (ja) 音声圧縮のコード化
Sampaio de Alencar et al. Analog-to-Digital Conversion