JPH09281996A - 有声音/無声音判定方法及び装置、並びに音声符号化方法 - Google Patents

有声音/無声音判定方法及び装置、並びに音声符号化方法

Info

Publication number
JPH09281996A
JPH09281996A JP8092848A JP9284896A JPH09281996A JP H09281996 A JPH09281996 A JP H09281996A JP 8092848 A JP8092848 A JP 8092848A JP 9284896 A JP9284896 A JP 9284896A JP H09281996 A JPH09281996 A JP H09281996A
Authority
JP
Japan
Prior art keywords
voiced
sound
unvoiced sound
function
unvoiced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8092848A
Other languages
English (en)
Other versions
JP3687181B2 (ja
Inventor
Kazuyuki Iijima
和幸 飯島
Masayuki Nishiguchi
正之 西口
Atsushi Matsumoto
淳 松本
Shiro Omori
士郎 大森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP09284896A priority Critical patent/JP3687181B2/ja
Priority to KR1019970012912A priority patent/KR970072718A/ko
Priority to US08/833,970 priority patent/US6023671A/en
Priority to CN97113406A priority patent/CN1173690A/zh
Publication of JPH09281996A publication Critical patent/JPH09281996A/ja
Application granted granted Critical
Publication of JP3687181B2 publication Critical patent/JP3687181B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 有声音/無声音(V/UV)の判定のための
各入力パラメータを総合的に判断し、単純なアルゴリズ
ムで高精度なV/UV判定を行う。 【解決手段】 入力音声信号に関する有声音/無声音判
定のためのパラメータとして、入力音声信号のフレーム
平均エネルギlev 、正規化自己相関ピーク値r0r、スペ
クトル類似度pos 、零交叉(ゼロクロス)数nZero 、ピ
ッチラグpch を、入力端子11〜15に供給する。これ
らのパラメータをxとするとき、関数計算回路31〜3
5により、それぞれ g(x) = 1/(1+ exp(−(x−b)/a)) ただし、a,bは定数 で表されるシグモイド関数g(x)により変換し、このシ
グモイド関数g(x)により変換されたパラメータを用い
て、V/UV判定回路26により有声音/無声音判定を
行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力音声信号が有
声音か無声音かを判定するための有声音/無声音判定方
法及び装置、並びに該有声音/無声音判定方法を用いた
音声符号化方法に関する。
【0002】
【従来の技術】オーディオ信号(音声信号や音響信号を
含む)の時間領域や周波数領域における統計的性質と人
間の聴感上の特性を利用して信号圧縮を行うような符号
化方法が種々知られている。この符号化方法としては、
大別して時間領域での符号化、周波数領域での符号化、
分析合成符号化等が挙げられる。
【0003】ここで、音声信号を符号化する場合には、
入力音声信号が有声音か無声音かの判定情報を用いるこ
とが多く行われている。有声音(voiced sound)とは、
声帯の振動を伴う音のことであり、無声音(unvoiced s
ound)とは、声帯の振動を伴わない音のことである。
【0004】一般に、有声音(V)と無声音(UV)と
の判定(V/UV判定)は、ピッチ抽出に付随した方法
で行われ、これは周期性/非周期性の特徴としての自己
相関関数のピーク等により有声音/無声音(V/UV)
の判定を行うものであるが、周期性を持たないが有声音
であるような場合に有効な判定が行えないことより、他
のパラメータとして、例えば音声信号のエネルギ、零交
叉数等も用いるようにしている。
【0005】
【発明が解決しようとする課題】ところで、従来の有声
音/無声音の判定においては、それぞれのパラメータの
判定結果を論理演算するような決定的なルールによって
有声音/無声音(V/UV)の判定を行っているため、
入力パラメータ全てを総合的に判断することが難しい。
例えば、「フレーム平均エネルギが所定の閾値より大き
く、かつ、残差の自己相関ピーク値が所定の閾値より大
きいとき、V(有声音)である。」といったルールで
は、フレーム平均エネルギが閾値を大きく上回っている
場合でも、残差の自己相関ピーク値が閾値をほんの少し
でも下回れば、V(有声音)と判断されることはなくな
ってしまう。
【0006】また、特定の入力音声に固有のルールが必
要となってしまい、あらゆる入力音声に対応できる一般
性を持たせるためには多数のルールを用意しなくてはな
らず、複雑なものとなる。
【0007】また、MBE(Multiband Excitation: マ
ルチバンド励起)符号化等で用いられている、スペクト
ル類似度、すなわち各バンド毎のV/UV判定結果を用
いたV/UV判定条件は、ピッチ検出が正確に行われて
いることが大前提となるが、実際にはピッチ検出を間違
いなく高精度に行うことは非常に難しい。
【0008】本発明は、このような実情に鑑みてなされ
たものであり、有声音/無声音(V/UV)の判定のた
めの各入力パラメータを総合的に判断し、単純なアルゴ
リズムで高精度なV/UV判定が行えるような有声音/
無声音判定方法及び装置、並びに音声符号化方法の提供
を目的とする。
【0009】
【課題を解決するための手段】本発明に係る音声符号化
方法は、上述した課題を解決するために、入力音声信号
に関する有声音/無声音判定のためのパラメータxを、 g(x) = A/(1+ exp(−(x−b)/a)) ただし、A,a,bは定数 で表されるシグモイド関数g(x)により変換し、このシ
グモイド関数g(x)により変換されたパラメータを用い
て有声音/無声音判定を行うことを特徴としている。
【0010】ここで、上記シグモイド関数g(x)を複数
の直線により近似して得られる関数g'(x) により上記
パラメータxを変換し、この変換されたパラメータを用
いて有声音/無声音判定を行うようにしてもよい。ま
た、上記有声音/無声音判定のためのパラメータとし
て、入力音声信号のフレーム平均エネルギ、正規化自己
相関ピーク値、スペクトル類似度、零交叉数、及びピッ
チ周期の少なくとも1つを用いることが好ましい。
【0011】
【発明の実施の形態】以下、本発明に係る好ましい実施
の形態について説明する。先ず、図1は、本発明に係る
有声音/無声音(V/UV)判定方法の実施の形態を説
明するための図である。
【0012】この図1において、各入力端子11,1
2,13,14,15には、有声音/無声音(V/U
V)判定のための入力パラメータとして、入力音声信号
のフレーム平均エネルギlev 、正規化自己相関ピーク値
r0r 、スペクトル類似度pos 、零交叉(ゼロクロス)数
nZero 、ピッチラグpch がそれぞれ供給されている。上
記フレーム平均エネルギlev については、端子10から
の入力音声信号をフレーム平均rms(root mean squa
re)算出回路21に供給することで得ることができる。
このフレーム平均エネルギlev は、1フレーム当たりの
平均rmsもしくはそれに準ずる量が用いられる。他の
入力パラメータについては、後述する。
【0013】このようなV/UV判定のための入力パラ
メータを一般化して、n個(nは自然数)の入力パラメ
ータをそれぞれx1,x2,...,xn と表すとき、これらの
入力パラメータxk (ただし、k=1,2,...,n)
によるV(有声音)らしさをそれぞれ関数gk(xk)で表
し、最終的なV(有声音)らしさを、 f(x1,x2,...,xn) = F(g1(x1),g2(x2),...,g
n(xn)) として評価する。
【0014】上記関数gk(xk)(ただし、k=1,
2,...,n) としては、その値域が、ckからdkまで
の値(ただし、ck,dk は、ck<dkの定数)を取る任
意の関数を用いることが挙げられる。
【0015】また、上記関数gk(xk)としては、その値
域がckからdkまでの値を取り、傾きの異なる複数の直
線からなる関数を用いることが挙げられる。
【0016】また、上記関数gk(xk)としては、その値
域がckからdkまでの値を取り、連続である関数を用い
ることが挙げられる。
【0017】また、上記関数gk(xk)としては、 gk(xk) = Ak/(1+ exp(−(xk−bk)/ak)) ただし、k=1,2,...,n、 Ak,ak,bk は、入力パラメータxk により異なる定数 で表されるシグモイド関数もしくはその乗算による組み
合わせを用いることが挙げられる。
【0018】ここで、上記シグモイド関数もしくはその
乗算による組み合わせによる関数を、傾きの異なる複数
の直線により近似することが挙げられる。
【0019】入力パラメータとしては、上述した入力音
声信号のフレーム平均エネルギlev、正規化自己相関ピ
ーク値r0r 、スペクトル類似度pos 、零交叉(ゼロクロ
ス)数nZero 、ピッチラグpch 等が挙げられる。
【0020】これらの入力パラメータlev ,r0r ,pos
,nZero ,pch についてのV(有声音)らしさを表す
関数をそれぞれpLev(lev) ,pR0r(r0r) ,pPos(pos) ,
pNZero(nZero) ,pPch(pch) とするとき、これらの関数
を用いた最終的なV(有声音)らしさを表す関数f(le
v,r0r,pos,nZero,pch) を、 f(lev,r0r,pos,nZero,pch)=((αpR0r(r0r)+βpL
ev(lev))/(α+β))×pPos(pos)×pNZero(nZero)
×pPch(pch) により計算することが挙げられる。ここで、α,βは、
pR0r,pLevをそれぞれ適当に重み付けするための定数で
ある。
【0021】図1においては、各入力端子11,12,
13,14,15からの入力パラメータとしての入力音
声信号のフレーム平均エネルギlev 、正規化自己相関ピ
ーク値r0r 、スペクトル類似度pos 、零交叉(ゼロクロ
ス)数nZero 、ピッチラグpch について、各パラメータ
のV(有声音)らしさを表す関数の計算部23に送られ
て、関数計算回路31により入力音声信号のフレーム平
均エネルギlev に基づくVらしさを表す関数pLev(lev)
が計算され、関数計算回路32により正規化自己相関ピ
ーク値r0r に基づくVらしさを表す関数pR0r(r0r) が計
算され、関数計算回路33によりスペクトル類似度pos
に基づくVらしさを表す関数pPos(pos)が計算され、関
数計算回路34により零交叉(ゼロクロス)数nZero に
基づくVらしさを表す関数pNZero(nZero) が計算され、
関数計算回路35によりピッチラグpch に基づくVらし
さを表す関数pPch(pch) が計算される。これらの関数計
算回路31〜35での計算の具体例については後述する
が、上述したシグモイド関数を用いるのが好ましい。
【0022】関数計算回路31からの関数pLev(lev) の
出力値には定数βが乗算され、関数計算回路32からの
関数pR0r(r0r) の出力値には定数αが乗算されて、これ
らが加算器24で加算され、加算出力αpR0r(r0r)+βp
Lev(lev)が乗算器25に送られる。この乗算器25に
は、各関数計算回路33,34,35からの各関数pPos
(pos),pNZero(nZero),pPch(pch) がそれぞれ供給され
て、これらが乗算されることで、上記式の最終的な最終
的なV(有声音)らしさを表す関数f(lev,r0r,pos,nZ
ero,pch) が求められる。これがV/UV(有声音/無
声音)判定回路26に送られて、所定の閾値(スレッシ
ョルド)で弁別されることで、V/UVの判定が行わ
れ、判定出力は端子27より取り出される。
【0023】次に、図2は、上述したような有声音/無
声音(V/UV)判定方法が用いられる本発明に係る音
声符号化方法の実施の形態が適用された音声信号符号化
装置の基本構成を示している。
【0024】この図2に示す音声信号符号化装置の基本
的な考え方は、入力音声信号の短期予測残差例えばLP
C(線形予測符号化)残差を求めてサイン波分析(sinu
soidal analysis )符号化、例えばハーモニックコーデ
ィング(harmonic coding )を行う第1の符号化部11
0と、入力音声信号に対して位相伝送を行う波形符号化
により符号化する第2の符号化部120とを有し、入力
信号の有声音(V:Voiced)の部分の符号化に第1の符
号化部110を用い、入力信号の無声音(UV:Unvoic
ed)の部分の符号化には第2の符号化部120を用いる
ようにすることである。この装置のV/UV(有声音/
無声音)判定に、上述した本発明の実施の形態のV/U
V判定方法や装置が用いられる。
【0025】上記第1の符号化部110には、例えばL
PC残差をハーモニック符号化やマルチバンド励起(M
BE)符号化のようなサイン波分析符号化を行う構成が
用いられる。上記第2の符号化部120には、例えば合
成による分析法を用いて最適ベクトルのクローズドルー
プサーチによるベクトル量子化を用いた符号励起線形予
測(CELP)符号化の構成が用いられる。
【0026】図2の例では、入力端子101に供給され
た音声信号が、第1の符号化部110のLPC逆フィル
タ111及びLPC分析・量子化部113に送られてい
る。LPC分析・量子化部113から得られたLPC係
数あるいはいわゆるαパラメータは、LPC逆フィルタ
111に送られて、このLPC逆フィルタ111により
入力音声信号の線形予測残差(LPC残差)が取り出さ
れる。また、LPC分析・量子化部113からは、後述
するようにLSP(線スペクトル対)の量子化出力が取
り出され、これが出力端子102に送られる。LPC逆
フィルタ111からのLPC残差は、サイン波分析符号
化部114に送られる。サイン波分析符号化部114で
は、ピッチ検出やスペクトルエンベロープ振幅計算が行
われると共に、V(有声音)/UV(無声音)判定部1
15によりV/UVの判定が行われる。このV/UV判
定部115に、上述した図1に示すようなV/UV判定
装置が用いられるわけである。
【0027】サイン波分析符号化部114からのスペク
トルエンベロープ振幅データがベクトル量子化部116
に送られる。スペクトルエンベロープのベクトル量子化
出力としてのベクトル量子化部116からのコードブッ
クインデクスは、スイッチ117を介して出力端子10
3に送られ、サイン波分析符号化部114からの出力
は、スイッチ118を介して出力端子104に送られ
る。また、V/UV判定部115からのV/UV判定出
力は、出力端子105に送られると共に、スイッチ11
7、118の制御信号として送られており、上述した有
声音(V)のとき上記インデクス及びピッチが選択され
て各出力端子103及び104からそれぞれ取り出され
る。
【0028】図2の第2の符号化部120は、この例で
はCELP(符号励起線形予測)符号化構成を有してお
り、雑音符号帳121からの出力を、重み付きの合成フ
ィルタ122により合成処理し、得られた重み付き音声
を減算器123に送り、入力端子101に供給された音
声信号を聴覚重み付けフィルタ125を介して得られた
音声との誤差を取り出し、この誤差を距離計算回路12
4に送って距離計算を行い、誤差が最小となるようなベ
クトルを雑音符号帳121でサーチするような、合成に
よる分析(Analysis by Synthesis )によるクローズド
ループサーチを用いた時間軸波形のベクトル量子化を行
っている。このCELP符号化は、上述したように無声
音部分の符号化に用いられており、雑音符号帳121か
らのUVデータとしてのコードブックインデクスは、上
記V/UV判定部115からのV/UV判定結果が無声
音(UV)のときオンとなるスイッチ127を介して、
出力端子107より取り出される。
【0029】次に、図3は、上記図2の音声信号符号化
装置に対応する音声信号復号化装置の基本構成を示すブ
ロック図である。
【0030】この図3において、入力端子202には上
記図2の出力端子102からの上記LSP(線スペクト
ル対)の量子化出力としてのコードブックインデクスが
入力される。入力端子203、204、及び205に
は、上記図2の各出力端子103、104、及び105
からの各出力、すなわちエンベロープ量子化出力として
のインデクス、ピッチ、及びV/UV判定出力がそれぞ
れ入力される。また、入力端子207には、上記図2の
出力端子107からのUV(無声音)用のデータとして
のインデクスが入力される。
【0031】入力端子203からのエンベロープ量子化
出力としてのインデクスは、逆ベクトル量子化器212
に送られて逆ベクトル量子化され、LPC残差のスペク
トルエンベロープが求められて有声音合成部211に送
られる。有声音合成部211は、サイン波合成により有
声音部分のLPC(線形予測符号化)残差を合成するも
のであり、この有声音合成部211には入力端子204
及び205からのピッチ及びV/UV判定出力も供給さ
れている。有声音合成部211からの有声音のLPC残
差は、LPC合成フィルタ214に送られる。また、入
力端子207からのUVデータのインデクスは、無声音
合成部220に送られて、雑音符号帳を参照することに
より無声音部分のLPC残差が取り出される。このLP
C残差もLPC合成フィルタ214に送られる。LPC
合成フィルタ214では、上記有声音部分のLPC残差
と無声音部分のLPC残差とがそれぞれ独立に、LPC
合成処理が施される。あるいは、有声音部分のLPC残
差と無声音部分のLPC残差とが加算されたものに対し
てLPC合成処理を施すようにしてもよい。ここで入力
端子202からのLSPのインデクスは、LPCパラメ
ータ再生部213に送られて、LPCのαパラメータが
取り出され、これがLPC合成フィルタ214に送られ
る。LPC合成フィルタ214によりLPC合成されて
得られた音声信号は、出力端子201より取り出され
る。
【0032】次に、上記図2に示した音声信号符号化装
置のより具体的な構成について、図4を参照しながら説
明する。なお、図4において、上記図2の各部と対応す
る部分には同じ指示符号を付している。
【0033】この図4に示された音声信号符号化装置に
おいて、入力端子101に供給された音声信号は、ハイ
パスフィルタ(HPF)109にて不要な帯域の信号を
除去するフィルタ処理が施された後、LPC(線形予測
符号化)分析・量子化部113のLPC分析回路132
と、LPC逆フィルタ回路111とに送られる。
【0034】LPC分析・量子化部113のLPC分析
回路132は、入力信号波形の256サンプル程度の長
さを1ブロックとしてハミング窓をかけて、自己相関法
により線形予測係数、いわゆるαパラメータを求める。
データ出力の単位となるフレーミングの間隔は、160
サンプル程度とする。サンプリング周波数fsが例えば
8kHzのとき、1フレーム間隔は160サンプルで20
msec となる。
【0035】LPC分析回路132からのαパラメータ
は、α→LSP変換回路133に送られて、線スペクト
ル対(LSP)パラメータに変換される。これは、直接
型のフィルタ係数として求まったαパラメータを、例え
ば10個、すなわち5対のLSPパラメータに変換す
る。変換は例えばニュートン−ラプソン法等を用いて行
う。このLSPパラメータに変換するのは、αパラメー
タよりも補間特性に優れているからである。
【0036】α→LSP変換回路133からのLSPパ
ラメータは、LSP量子化器134によりマトリクスあ
るいはベクトル量子化される。このとき、フレーム間差
分をとってからベクトル量子化してもよく、複数フレー
ム分をまとめてマトリクス量子化してもよい。ここで
は、20msec を1フレームとし、20msec 毎に算出
されるLSPパラメータを2フレーム分まとめて、マト
リクス量子化及びベクトル量子化している。
【0037】このLSP量子化器134からの量子化出
力、すなわちLSP量子化のインデクスは、端子102
を介して取り出され、また量子化済みのLSPベクトル
は、LSP補間回路136に送られる。
【0038】LSP補間回路136は、上記20msec
あるいは40msec 毎に量子化されたLSPのベクトル
を補間し、8倍のレートにする。すなわち、2.5mse
c 毎にLSPベクトルが更新されるようにする。これ
は、残差波形をハーモニック符号化復号化方法により分
析合成すると、その合成波形のエンベロープは非常にな
だらかでスムーズな波形になるため、LPC係数が20
msec 毎に急激に変化すると異音を発生することがある
からである。すなわち、2.5msec 毎にLPC係数が
徐々に変化してゆくようにすれば、このような異音の発
生を防ぐことができる。
【0039】このような補間が行われた2.5msec 毎
のLSPベクトルを用いて入力音声の逆フィルタリング
を実行するために、LSP→α変換回路137により、
LSPパラメータを例えば10次程度の直接型フィルタ
の係数であるαパラメータに変換する。このLSP→α
変換回路137からの出力は、上記LPC逆フィルタ回
路111に送られ、このLPC逆フィルタ111では、
2.5msec 毎に更新されるαパラメータにより逆フィ
ルタリング処理を行って、滑らかな出力を得るようにし
ている。このLPC逆フィルタ111からの出力は、サ
イン波分析符号化部114、具体的には例えばハーモニ
ック符号化回路、の直交変換回路145、例えばDFT
(離散フーリエ変換)回路に送られる。
【0040】LPC分析・量子化部113のLPC分析
回路132からのαパラメータは、聴覚重み付けフィル
タ算出回路139に送られて聴覚重み付けのためのデー
タが求められ、この重み付けデータが後述する聴覚重み
付きのベクトル量子化器116と、第2の符号化部12
0の聴覚重み付けフィルタ125及び聴覚重み付きの合
成フィルタ122とに送られる。
【0041】ハーモニック符号化回路等のサイン波分析
符号化部114では、LPC逆フィルタ111からの出
力を、ハーモニック符号化の方法で分析する。すなわ
ち、ピッチ検出、各ハーモニクスの振幅Amの算出、有
声音(V)/無声音(UV)の判定を行い、ピッチによ
って変化するハーモニクスのエンベロープあるいは振幅
Amの個数を次元変換して一定数にしている。
【0042】図4に示すサイン波分析符号化部114の
具体例においては、一般のハーモニック符号化を想定し
ているが、特に、MBE(Multiband Excitation: マル
チバンド励起)符号化の場合には、同時刻(同じブロッ
クあるいはフレーム内)の周波数軸領域いわゆるバンド
毎に有声音(Voiced)部分と無声音(Unvoiced)部分と
が存在するという仮定でモデル化することになる。それ
以外のハーモニック符号化では、1ブロックあるいはフ
レーム内の音声が有声音か無声音かの択一的な判定がな
されることになる。なお、以下の説明中のフレーム毎の
V/UVとは、MBE符号化に適用した場合には全バン
ドがUVのときを当該フレームのUVとしている。
【0043】図4のサイン波分析符号化部114のオー
プンループピッチサーチ部141には、上記入力端子1
01からの入力音声信号が、またゼロクロスカウンタ1
42には、上記HPF(ハイパスフィルタ)109から
の信号がそれぞれ供給されている。サイン波分析符号化
部114の直交変換回路145には、LPC逆フィルタ
111からのLPC残差あるいは線形予測残差が供給さ
れている。オープンループピッチサーチ部141では、
入力信号のLPC残差をとってオープンループによる比
較的ラフなピッチのサーチが行われ、抽出された粗ピッ
チデータは高精度ピッチサーチ146に送られて、後述
するようなクローズドループによる高精度のピッチサー
チ(ピッチのファインサーチ)が行われる。また、オー
プンループピッチサーチ部141からは、上記粗ピッチ
データと共にLPC残差の自己相関の最大値をパワーで
正規化した正規化自己相関最大値r(p) が取り出され、
V/UV(有声音/無声音)判定部115に送られてい
る。
【0044】直交変換回路145では例えばDFT(離
散フーリエ変換)等の直交変換処理が施されて、時間軸
上のLPC残差が周波数軸上のスペクトル振幅データに
変換される。この直交変換回路145からの出力は、高
精度ピッチサーチ部146及びスペクトル振幅あるいは
エンベロープを評価するためのスペクトル評価部148
に送られる。
【0045】高精度(ファイン)ピッチサーチ部146
には、オープンループピッチサーチ部141で抽出され
た比較的ラフな粗ピッチデータと、直交変換部145に
より例えばDFTされた周波数軸上のデータとが供給さ
れている。この高精度ピッチサーチ部146では、上記
粗ピッチデータ値を中心に、0.2〜0.5きざみで±数サ
ンプルずつ振って、最適な小数点付き(フローティン
グ)のファインピッチデータの値へ追い込む。このとき
のファインサーチの手法として、いわゆる合成による分
析 (Analysis by Synthesis)法を用い、合成されたパワ
ースペクトルが原音のパワースペクトルに最も近くなる
ようにピッチを選んでいる。このようなクローズドルー
プによる高精度のピッチサーチ部146からのピッチデ
ータについては、スイッチ118を介して出力端子10
4に送っている。
【0046】スペクトル評価部148では、LPC残差
の直交変換出力としてのスペクトル振幅及びピッチに基
づいて各ハーモニクスの大きさ及びその集合であるスペ
クトルエンベロープが評価され、高精度ピッチサーチ部
146、V/UV(有声音/無声音)判定部115及び
聴覚重み付きのベクトル量子化器116に送られる。
【0047】V/UV(有声音/無声音)判定部115
は、直交変換回路145からの出力と、高精度ピッチサ
ーチ部146からの最適ピッチと、スペクトル評価部1
48からのスペクトル振幅データと、オープンループピ
ッチサーチ部141からの正規化自己相関最大値r(p)
と、ゼロクロスカウンタ412からのゼロクロスカウン
ト値とに基づいて、当該フレームのV/UV判定が行わ
れる。さらに、MBEの場合の各バンド毎のV/UV判
定結果の境界位置も当該フレームのV/UV判定の一条
件としてもよい。このV/UV判定部115からの判定
出力は、出力端子105を介して取り出される。
【0048】ところで、スペクトル評価部148の出力
部あるいはベクトル量子化器116の入力部には、デー
タ数変換(一種のサンプリングレート変換)部が設けら
れている。このデータ数変換部は、上記ピッチに応じて
周波数軸上での分割帯域数が異なり、データ数が異なる
ことを考慮して、エンベロープの振幅データ|Am|を
一定の個数にするためのものである。すなわち、例えば
有効帯域を3400kHzまでとすると、この有効帯域が
上記ピッチに応じて、8バンド〜63バンドに分割され
ることになり、これらの各バンド毎に得られる上記振幅
データ|Am|の個数mMX+1も8〜63と変化するこ
とになる。このためデータ数変換部119では、この可
変個数mMX+1の振幅データを一定個数M個、例えば4
4個、のデータに変換している。
【0049】このスペクトル評価部148の出力部ある
いはベクトル量子化器116の入力部に設けられたデー
タ数変換部からの上記一定個数M個(例えば44個)の
振幅データあるいはエンベロープデータが、ベクトル量
子化器116により、所定個数、例えば44個のデータ
毎にまとめられてベクトルとされ、重み付きベクトル量
子化が施される。この重みは、聴覚重み付けフィルタ算
出回路139からの出力により与えられる。ベクトル量
子化器116からの上記エンベロープのインデクスは、
スイッチ117を介して出力端子103より取り出され
る。なお、上記重み付きベクトル量子化に先だって、所
定個数のデータから成るベクトルについて適当なリーク
係数を用いたフレーム間差分をとっておくようにしても
よい。
【0050】次に、第2の符号化部120について説明
する。第2の符号化部120は、いわゆるCELP(符
号励起線形予測)符号化構成を有しており、特に、入力
音声信号の無声音部分の符号化のために用いられてい
る。この無声音部分用のCELP符号化構成において、
雑音符号帳、いわゆるストキャスティック・コードブッ
ク(stochastic code book)121からの代表値出力で
ある無声音のLPC残差に相当するノイズ出力を、ゲイ
ン回路126を介して、聴覚重み付きの合成フィルタ1
22に送っている。重み付きの合成フィルタ122で
は、入力されたノイズをLPC合成処理し、得られた重
み付き無声音の信号を減算器123に送っている。減算
器123には、上記入力端子101からHPF(ハイパ
スフィルタ)109を介して供給された音声信号を聴覚
重み付けフィルタ125で聴覚重み付けした信号が入力
されており、合成フィルタ122からの信号との差分あ
るいは誤差を取り出している。この誤差を距離計算回路
124に送って距離計算を行い、誤差が最小となるよう
な代表値ベクトルを雑音符号帳121でサーチする。こ
のような合成による分析(Analysis by Synthesis )法
を用いたクローズドループサーチを用いた時間軸波形の
ベクトル量子化を行っている。
【0051】このCELP符号化構成を用いた第2の符
号化部120からのUV(無声音)部分用のデータとし
ては、雑音符号帳121からのコードブックのシェイプ
インデクスと、ゲイン回路126からのコードブックの
ゲインインデクスとが取り出される。雑音符号帳121
からのUVデータであるシェイプインデクスは、スイッ
チ127sを介して出力端子107sに送られ、ゲイン
回路126のUVデータであるゲインインデクスは、ス
イッチ127gを介して出力端子107gに送られてい
る。
【0052】ここで、これらのスイッチ127s、12
7g及び上記スイッチ117、118は、上記V/UV
判定部115からのV/UV判定結果によりオン/オフ
制御され、スイッチ117、118は、現在伝送しよう
とするフレームの音声信号のV/UV判定結果が有声音
(V)のときオンとなり、スイッチ127s、127g
は、現在伝送しようとするフレームの音声信号が無声音
(UV)のときオンとなる。
【0053】次に、図4の音声信号符号化装置におい
て、V/UV(有声音/無声音)判定部115の具体例
について説明する。
【0054】このV/UV判定部115は、前述した図
1のV/UV判定装置を基本構成とするものであり、前
記入力音声信号のフレーム平均エネルギlev 、正規化自
己相関ピーク値r0r 、スペクトル類似度pos 、零交叉
(ゼロクロス)数nZero 、ピッチラグpch に基づいて、
当該フレームのV/UV判定が行われる。
【0055】すなわち、直交変換回路145からの出力
に基づいて入力音声信号のフレーム平均エネルギ、すな
わちフレーム平均rmsもしくはそれに準ずる量lev が
求められて、図1の入力端子11に供給され、オープン
ループピッチサーチ部141からの正規化自己相関ピー
ク値r0r が図1の入力端子12に供給され、ゼロクロス
カウンタ412からのゼロクロスカウント値(零交叉
数)nZero が図1の入力端子14に供給され、高精度ピ
ッチサーチ部146からの最適ピッチとして、ピッチ周
期をサンプル数で表したピッチラグpch が図1の入力端
子15に供給される。また、MBEの場合と同様な各バ
ンド毎のV/UV判別結果の境界位置も当該フレームの
V/UV判定の一条件としており、これがスペクトル類
似度pos として図1の入力端子13に供給される。
【0056】このMBEの場合の各バンド毎のV/UV
判別結果を用いたV/UV判定パラメータであるスペク
トル類似度pos について以下に説明する。
【0057】MBEの場合の第m番目のハーモニックス
の大きさを表すパラメータあるいは振幅|Am| は、
【0058】
【数1】
【0059】により表せる。この式において、|S(j)
| は、LPC残差をDFTしたスペクトルであり、|
E(j)| は、基底信号のスペクトル、具体的には256
ポイントのハミング窓をDFTしたものである。また、
各バンド毎のV/UV判定のために、NSR(ノイズto
シグナル比)を利用する。この第mバンドのNSRは、
【0060】
【数2】
【0061】と表せ、このNSR値が所定の閾値(例え
ば0.3 )より大のとき(エラーが大きい)ときには、そ
のバンドでの|Am ||E(j) |による|S(j) |の近
似が良くない(上記励起信号|E(j) |が基底として不
適当である)と判断でき、当該バンドをUV(Unvoice
d、無声音)と判別する。これ以外のときは、近似があ
る程度良好に行われていると判断でき、そのバンドをV
(Voiced、有声音)と判別する。
【0062】ところで、上述したように基本ピッチ周波
数で分割されたバンドの数(ハーモニックスの数)は、
声の高低(ピッチの大小)によって約8〜63程度の範
囲で変動するため、各バンド毎のV/UVフラグの個数
も同様に変動してしまう。そこで、固定的な周波数帯域
で分割した一定個数のバンド毎にV/UV判別結果をま
とめる(あるいは縮退させる)ようにしている。具体的
には、音声帯域を含む所定帯域を例えば12個のバンド
に分割し、当該バンドのV/UVを判断している。この
場合のバンド毎のV/UV判別データについては、全バ
ンド中で1箇所以下の有声音(V)領域と無声音(U
V)領域との区分位置あるいは境界位置を表すデータ
を、上記スペクトル類似度pos として用いている。この
場合、スペクトル類似度pos の取り得る値は、1≦pos
≦12 となる。
【0063】図1の各入力端子11〜15にそれぞれ供
給された上記各入力パラメータは、それぞれ関数計算回
路31〜25に送られて、V(有声音)らしさを表す関
数値の計算が行われる。このときの関数の具体例につい
て説明する。
【0064】先ず、図1の関数計算回路31では、入力
音声信号のフレーム平均エネルギlev の値に基づいて、
関数pLev(lev) の値が計算される。この関数pLev(lev)
としては、例えば、 pLev(lev) = 1.0/(1.0+exp(-(lev-400.0)/100.0)) が用いられる。この関数pLev(lev) のグラフを図5に示
す。
【0065】次に、図1の関数計算回路32では、正規
化自己相関ピーク値r0r の値(0≦r0r≦1.0)に基づい
て、関数pR0r(r0r) の値が計算される。この関数pR0r(r
0r)としては、例えば、 pR0r(r0r) = 1.0/(1.0+exp(-(r0r-0.3)/0.06)) が用いられる。この関数pR0r(r0r) のグラフを図6に示
す。
【0066】図1の関数計算回路33では、スペクトル
類似度pos の値(1≦pos≦12)に基づいて、関数pPo
s(pos) の値が計算される。この関数pPos(pos) として
は、例えば、 pPos(pos) = 1.0/(1.0+exp(-(pos-1.5)/0.8)) が用いられる。この関数pPos(pos) のグラフを図7に示
す。
【0067】図1の関数計算回路34では、零交叉数nZ
ero の値(1≦nZero≦160) に基づいて、関数pNZe
ro(nZero) の値が計算される。この関数pNZero(nZero)
としては、例えば、 pNZero(nZero) = 1.0/(1.0+exp((nZero-70.0)/12.
0)) が用いられる。この関数pNZero(nZero) のグラフを図8
に示す。
【0068】さらに、図1の関数計算回路35では、ピ
ッチラグpch の値(20≦pch≦147)に基づいて、関数pP
ch(pch) の値が計算される。この関数pPch(pch) として
は、例えば、 pPch(pch) = 1.0/(1.0+exp(-(pch-12.0)/2.5))×
1.0/(1.0+exp((pch-105.0)/6.0)) が用いられる。この関数pPch(pch) のグラフを図9に示
す。
【0069】これらの関数pLev(lev) ,pR0r(r0r) ,pP
os(pos) ,pNZero(nZero) ,pPch(pch) により算出され
た各パラメータlev ,r0r ,pos ,nZero ,pch につい
てのV(有声音)らしさを用いて、最終的なVらしさを
算出するわけであるが、このとき、次の2点を考慮する
ことが好ましい。
【0070】すなわち、第1点として、例えば、自己相
関ピーク値が比較的小さくても、フレーム平均エネルギ
が非常に大きいような場合は、V(有声音)とすべきで
ある。このように、相補的な関係が強いパラメータ同士
では、重み付け和をとることにする。第2点として、独
立してVらしさを表しているパラメータについては、乗
算を行う。
【0071】よって、相補的な関係にある自己相関ピー
ク値とフレーム平均エネルギについては重み付け和をと
り、その他については乗算を行うことにし、最終的なV
らしさを表す関数f(lev,r0r,pos,nZero,pch) を、 f(lev,r0r,pos,nZero,pch)=((1.2pR0r(r0r)+0.8
pLev(lev))/2.0)×pPos(pos)×pNZero(nZero)×pPch
(pch) により計算する。ここで、重み付けパラメータ(α=1.
2 ,β=0.8) は経験的に得られたものである。
【0072】V/UV(有声音/無声音)判定は、最終
的にfが0.5以上であればV(有声音)とし、fが
0.5より小さければUV(無声音)とする。
【0073】なお、本発明は上記実施の形態のみに限定
されるものではなく、例えば上記正規化自己相関ピーク
値r0r についての有声音らしさを求める上記関数pR0r(r
0r)の代わりに、これを適当な直線により近似した関数p
R0r'(r0r)として、 pR0r'(r0r) = 0.6x 0≦x< 7/34 pR0r'(r0r) = 4.0(x - 0.175) 7/34 ≦x< 67/170 pR0r'(r0r) = 0.6x + 0.64 67/170 ≦x< 0.6 pR0r'(r0r) = 1 0.6 ≦x≦ 1.0 を用いることも可能である。この近似関数pR0r'(r0r)の
グラフを図10の実線に示す。この図10の破線は、各
近似直線及び元の関数pR0r(r0r) を示すものである。
【0074】また、上記図2、図4の音声分析側(エン
コード側)の構成については、各部をハードウェア的に
記載しているが、いわゆるDSP(ディジタル信号プロ
セッサ)等を用いてソフトウェアプログラムにより実現
することも可能である。また、本発明の有声音/無声音
判定が適用される音声符号化方法としては、一般に、L
PC(線形予測符号化)残差信号をVとUVとに分け
て、V側では残差のハーモニックコーディングまたは正
弦波分析(sinusoidal analysis) 符号化を行う音声圧
縮符号化を用いることができ、UV側では、いわゆるC
ELP(符号励起線形予測)符号化や、雑音の色付けに
よる合成等を用いた符号化等の種々の符号化を行わせる
ことができる。また、V側では上記LPC残差の符号化
を行い、スペクトルエンベロープに対して可変次元重み
付きVQ(ベクトル量子化)を行う音声圧縮符号化方式
に本発明を適用してもよい。さらに、本発明の適用範囲
は、伝送や記録再生に限定されず、ピッチ変換やスピー
ド変換、規則音声合成、あるいは雑音抑圧のような種々
の用途に応用できることは勿論である。
【0075】
【発明の効果】以上の説明から明らかなように、本発明
によれば、入力音声信号に関する有声音/無声音判定の
ためのパラメータxを、 g(x) = A/(1+ exp(−(x−b)/a)) ただし、A,a,bは定数 で表されるシグモイド関数g(x)により変換し、このシ
グモイド関数g(x)により変換されたパラメータを用い
て有声音/無声音判定を行っているため、有声音/無声
音(V/UV)の判定のための各入力パラメータを総合
的に判断でき、単純なアルゴリズムで高精度なV/UV
判定が行える。
【0076】また、上記シグモイド関数g(x)の代わり
に、シグモイド関数g(x)を複数の直線により近似して
得られる関数g'(x) により上記パラメータxを変換
し、この変換されたパラメータを用いて有声音/無声音
判定を行うことにより、関数テーブル等を用いることな
く、また簡単な演算でパラメータ変換が行え、装置の低
価格化や高速化が図れる。
【図面の簡単な説明】
【図1】本発明に係る音声符号化方法の実施の形態が適
用される音声信号符号化装置の基本構成を示すブロック
図である。
【図2】本発明に係る音声符号化方法の実施の形態が適
用される音声信号符号化装置の基本構成を示すブロック
図である。
【図3】図2の音声信号符号化装置に対応する音声信号
復号化装置の基本構成を示すブロック図である。
【図4】本発明の実施の形態となる音声符号化方法が適
用される音声信号符号化装置のより具体的な構成を示す
ブロック図である。
【図5】入力音声信号のフレーム平均エネルギlev に対
するV(有声音)らしさを表す関数pLev(lev) のグラフ
の一例を示す図である。
【図6】正規化自己相関ピーク値r0r に対する有声音ら
しさを表す関数pR0r(r0r) のグラフの一例を示す図であ
る。
【図7】スペクトル類似度pos に対する有声音らしさを
表す関数pPos(pos) のグラフの一例を示す図である。
【図8】零交叉数nZero に対する有声音らしさを表す関
数pNZero(nZero) のグラフの一例を示す図である。
【図9】ピッチラグpch に対する有声音らしさを表す関
数pPch(pch) のグラフの一例を示す図である。
【図10】正規化自己相関ピーク値r0r に対する有声音
らしさを複数の直線で近似して表す関数pR0r'(r0r)のグ
ラフの一例を示す図である。
【符号の説明】
11 入力音声信号のフレーム平均エネルギlev の入力
端子、 12 正規化自己相関ピーク値r0r の入力端
子、13 スペクトル類似度pos の入力端子、14 零
交叉数nZero の入力端子、 15 ピッチラグpch の入
力端子、 31,32,33,34,35 関数計算回
路、 110 第1の符号化部、 111 LPC逆フ
ィルタ、 113 LPC分析・量子化部、 114
サイン波分析符号化部、 115 V/UV判定部、
120 第2の符号化部、 121 雑音符号帳、 1
22 重み付き合成フィルタ、 123 減算器、 1
24 距離計算回路、 125 聴覚重み付けフィルタ
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G10L 9/18 G10L 9/18 A // H03M 7/30 9382−5K H03M 7/30 B (72)発明者 大森 士郎 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 入力音声信号が有声音か無声音かを判定
    する有声音/無声音判定方法において、 入力音声信号に関する有声音/無声音判定のためのパラ
    メータxを、 g(x) = A/(1+ exp(−(x−b)/a)) ただし、A,a,bは定数 で表されるシグモイド関数g(x)により変換し、このシ
    グモイド関数g(x)により変換されたパラメータを用い
    て有声音/無声音判定を行うことを特徴とする有声音/
    無声音判定方法。
  2. 【請求項2】 上記シグモイド関数g(x)を複数の直線
    により近似して得られる関数g'(x) により上記パラメ
    ータxを変換し、この変換されたパラメータを用いて有
    声音/無声音判定を行うことを特徴とする請求項1記載
    の有声音/無声音判定方法。
  3. 【請求項3】 上記有声音/無声音判定のためのパラメ
    ータとして、入力音声信号のフレーム平均エネルギ、正
    規化自己相関ピーク値、スペクトル類似度、零交叉数、
    及びピッチ周期の少なくとも1つを用いることを特徴と
    する請求項1記載の有声音/無声音判定方法。
  4. 【請求項4】 上記有声音/無声音判定のためのパラメ
    ータとして、入力音声信号のフレーム平均エネルギlev
    、正規化自己相関ピーク値r0r 、スペクトル類似度pos
    、零交叉数nZero 、ピッチラグpch を用い、これらの
    パラメータに基づく有声音らしさを表す関数をそれぞれ
    pLev(lev) ,pR0r(r0r) ,pPos(pos) ,pNZero(nZero)
    ,pPch(pch) とするとき、これらの関数を用いた最終
    的な有声音らしさを表す関数f(lev,r0r,pos,nZero,pc
    h) を、 f(lev,r0r,pos,nZero,pch)=((αpR0r(r0r)+βpL
    ev(lev))/(α+β))×pPos(pos)×pNZero(nZero)
    ×pPch(pch) により計算することを特徴とする請求項1記載の有声音
    /無声音判定方法。
  5. 【請求項5】 入力音声信号が有声音か無声音かを判定
    する有声音/無声音判定装置において、 入力音声信号に関する有声音/無声音判定のためのパラ
    メータxを、 g(x) = A/(1+ exp(−(x−b)/a)) ただし、A,a,bは定数 で表されるシグモイド関数g(x)により変換して関数出
    力値を得る関数計算手段と、 この関数計算手段により上記シグモイド関数g(x)に基
    づいて得られた値を用いて有声音/無声音判定を行う手
    段とを有することを特徴とする有声音/無声音判定装
    置。
  6. 【請求項6】 入力音声信号を時間軸上でフレーム単位
    で区分して各フレーム単位で符号化を行う音声符号化方
    法において、 入力音声信号に関する有声音/無声音判定のためのパラ
    メータxを、 g(x) = A/(1+ exp(−(x−b)/a)) ただし、A,a,bは定数 で表されるシグモイド関数g(x)により変換し、このシ
    グモイド関数g(x)により変換されたパラメータを用い
    て有声音/無声音判定を行い、この有声音/無声音判定
    結果に基づいて、有声音とされた部分ではサイン波分析
    符号化を行うことを特徴とする音声符号化方法。
  7. 【請求項7】 上記シグモイド関数g(x)を複数の直線
    により近似して得られる関数g'(x) により上記パラメ
    ータxを変換し、この変換されたパラメータを用いて有
    声音/無声音判定を行うことを特徴とする請求項6記載
    の音声符号化方法。
  8. 【請求項8】 上記有声音/無声音判定結果に基づい
    て、無声音とされた部分では合成による分析法を用いて
    最適ベクトルのクローズドループサーチによる時間軸波
    形のベクトル量子化を行うことを特徴とする請求項6記
    載の音声符号化方法。
JP09284896A 1996-04-15 1996-04-15 有声音/無声音判定方法及び装置、並びに音声符号化方法 Expired - Fee Related JP3687181B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP09284896A JP3687181B2 (ja) 1996-04-15 1996-04-15 有声音/無声音判定方法及び装置、並びに音声符号化方法
KR1019970012912A KR970072718A (ko) 1996-04-15 1997-04-08 유성음/무성음을 판정하기 위한 방법과 장치 그리고 음성을 부호화하기 위한 방법
US08/833,970 US6023671A (en) 1996-04-15 1997-04-11 Voiced/unvoiced decision using a plurality of sigmoid-transformed parameters for speech coding
CN97113406A CN1173690A (zh) 1996-04-15 1997-04-15 识别浊音/清音的方法和装置及其语音编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09284896A JP3687181B2 (ja) 1996-04-15 1996-04-15 有声音/無声音判定方法及び装置、並びに音声符号化方法

Publications (2)

Publication Number Publication Date
JPH09281996A true JPH09281996A (ja) 1997-10-31
JP3687181B2 JP3687181B2 (ja) 2005-08-24

Family

ID=14065856

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09284896A Expired - Fee Related JP3687181B2 (ja) 1996-04-15 1996-04-15 有声音/無声音判定方法及び装置、並びに音声符号化方法

Country Status (4)

Country Link
US (1) US6023671A (ja)
JP (1) JP3687181B2 (ja)
KR (1) KR970072718A (ja)
CN (1) CN1173690A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6738739B2 (en) * 2001-02-15 2004-05-18 Mindspeed Technologies, Inc. Voiced speech preprocessing employing waveform interpolation or a harmonic model
KR100455710B1 (ko) * 2001-01-12 2004-11-06 가부시키가이샤 엔.티.티.도코모 암호화 장치, 복호 장치, 인증정보 부여 장치, 암호화방법, 복호 방법, 및 인증정보 부여 방법
JP2005512753A (ja) * 2002-01-10 2005-05-12 デイープブリーズ・リミテツド 気道音響の解析及び画像形成用システム
JP2012504779A (ja) * 2008-10-02 2012-02-23 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング 音声データの伝送にエラーがある際のエラー隠蔽方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100450787B1 (ko) * 1997-06-18 2005-05-03 삼성전자주식회사 스펙트럼의동적영역정규화에의한음성특징추출장치및방법
KR100474826B1 (ko) * 1998-05-09 2005-05-16 삼성전자주식회사 음성부호화기에서의주파수이동법을이용한다중밴드의유성화도결정방법및그장치
JP2000267690A (ja) * 1999-03-19 2000-09-29 Toshiba Corp 音声検知装置及び音声制御システム
US6795807B1 (en) * 1999-08-17 2004-09-21 David R. Baraff Method and means for creating prosody in speech regeneration for laryngectomees
US6621834B1 (en) * 1999-11-05 2003-09-16 Raindance Communications, Inc. System and method for voice transmission over network protocols
US6633839B2 (en) * 2001-02-02 2003-10-14 Motorola, Inc. Method and apparatus for speech reconstruction in a distributed speech recognition system
US20040225500A1 (en) * 2002-09-25 2004-11-11 William Gardner Data communication through acoustic channels and compression
CN1779779B (zh) * 2004-11-24 2010-05-26 摩托罗拉公司 提供语音语料库的方法及其相关设备
KR100714721B1 (ko) * 2005-02-04 2007-05-04 삼성전자주식회사 음성 구간 검출 방법 및 장치
KR100744352B1 (ko) * 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
KR100757366B1 (ko) * 2006-08-11 2007-09-11 충북대학교 산학협력단 Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형추출 방법
CN101009096B (zh) * 2006-12-15 2011-01-26 清华大学 子带清浊音模糊判决的方法
CN101009097B (zh) * 2007-01-26 2010-11-10 清华大学 1.2kb/s SELP低速率声码器抗信道误码保护方法
US9454976B2 (en) 2013-10-14 2016-09-27 Zanavox Efficient discrimination of voiced and unvoiced sounds
CN110619881B (zh) * 2019-09-20 2022-04-15 北京百瑞互联技术有限公司 一种语音编码方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59212898A (ja) * 1983-05-18 1984-12-01 株式会社日立製作所 有声・無声判定方式
JPH05188986A (ja) * 1992-01-17 1993-07-30 Oki Electric Ind Co Ltd 有声音無声音判定方法
JPH0756598A (ja) * 1993-08-17 1995-03-03 Mitsubishi Electric Corp 有声音・無声音判別装置
JPH07282038A (ja) * 1994-03-31 1995-10-27 Philips Electron Nv 線形関数で近似する数値処理方法及びプロセッサ
JPH0869299A (ja) * 1994-08-30 1996-03-12 Sony Corp 音声符号化方法、音声復号化方法及び音声符号化復号化方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4219695A (en) * 1975-07-07 1980-08-26 International Communication Sciences Noise estimation system for use in speech analysis
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59212898A (ja) * 1983-05-18 1984-12-01 株式会社日立製作所 有声・無声判定方式
JPH05188986A (ja) * 1992-01-17 1993-07-30 Oki Electric Ind Co Ltd 有声音無声音判定方法
JPH0756598A (ja) * 1993-08-17 1995-03-03 Mitsubishi Electric Corp 有声音・無声音判別装置
JPH07282038A (ja) * 1994-03-31 1995-10-27 Philips Electron Nv 線形関数で近似する数値処理方法及びプロセッサ
JPH0869299A (ja) * 1994-08-30 1996-03-12 Sony Corp 音声符号化方法、音声復号化方法及び音声符号化復号化方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100455710B1 (ko) * 2001-01-12 2004-11-06 가부시키가이샤 엔.티.티.도코모 암호화 장치, 복호 장치, 인증정보 부여 장치, 암호화방법, 복호 방법, 및 인증정보 부여 방법
US6738739B2 (en) * 2001-02-15 2004-05-18 Mindspeed Technologies, Inc. Voiced speech preprocessing employing waveform interpolation or a harmonic model
JP2005512753A (ja) * 2002-01-10 2005-05-12 デイープブリーズ・リミテツド 気道音響の解析及び画像形成用システム
JP2012504779A (ja) * 2008-10-02 2012-02-23 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング 音声データの伝送にエラーがある際のエラー隠蔽方法
US8612218B2 (en) 2008-10-02 2013-12-17 Robert Bosch Gmbh Method for error concealment in the transmission of speech data with errors

Also Published As

Publication number Publication date
CN1173690A (zh) 1998-02-18
KR970072718A (ko) 1997-11-07
JP3687181B2 (ja) 2005-08-24
US6023671A (en) 2000-02-08

Similar Documents

Publication Publication Date Title
JP3277398B2 (ja) 有声音判別方法
CA2140329C (en) Decomposition in noise and periodic signal waveforms in waveform interpolation
McCree et al. A mixed excitation LPC vocoder model for low bit rate speech coding
JP3707116B2 (ja) 音声復号化方法及び装置
JP3840684B2 (ja) ピッチ抽出装置及びピッチ抽出方法
JP3687181B2 (ja) 有声音/無声音判定方法及び装置、並びに音声符号化方法
JP3475446B2 (ja) 符号化方法
JP3680380B2 (ja) 音声符号化方法及び装置
JP3707154B2 (ja) 音声符号化方法及び装置
JP3557662B2 (ja) 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
EP0745971A2 (en) Pitch lag estimation system using linear predictive coding residual
JPH07248794A (ja) 音声信号処理方法
KR100526829B1 (ko) 음성부호화방법및장치음성복호화방법및장치
JPH10124094A (ja) 音声分析方法、音声符号化方法および装置
JPH10124092A (ja) 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置
KR20010024639A (ko) 합성에 의한 분석에 기초한 인식을 이용한 피치 평가를위한 방법 및 장치
JPH10105194A (ja) ピッチ検出方法、音声信号符号化方法および装置
US6456965B1 (en) Multi-stage pitch and mixed voicing estimation for harmonic speech coders
JPH10105195A (ja) ピッチ検出方法、音声信号符号化方法および装置
JP2779325B2 (ja) ボコーダーにおける前処理の相関関係式を用いたピッチ検索時間短縮方法
JP3218679B2 (ja) 高能率符号化方法
US6438517B1 (en) Multi-stage pitch and mixed voicing estimation for harmonic speech coders
McCree et al. Implementation and evaluation of a 2400 bit/s mixed excitation LPC vocoder
JP2000514207A (ja) 音声合成システム
JP3398968B2 (ja) 音声分析合成方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050418

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050530

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080617

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090617

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090617

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100617

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100617

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110617

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110617

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120617

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130617

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees