JP2000353000A - 音声信号位相情報処理装置及びその方法 - Google Patents

音声信号位相情報処理装置及びその方法

Info

Publication number
JP2000353000A
JP2000353000A JP2000139517A JP2000139517A JP2000353000A JP 2000353000 A JP2000353000 A JP 2000353000A JP 2000139517 A JP2000139517 A JP 2000139517A JP 2000139517 A JP2000139517 A JP 2000139517A JP 2000353000 A JP2000353000 A JP 2000353000A
Authority
JP
Japan
Prior art keywords
frequency
phase
audio signal
bandwidth
critical bandwidth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000139517A
Other languages
English (en)
Inventor
Doh Suk Kim
度 錫 金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2000353000A publication Critical patent/JP2000353000A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 音声信号の位相成分を選択的にコーディング
または合成できるように、人間の聴覚特性を考慮して重
要な位相成分を識別する音声信号位相情報処理装置及び
その方法を提供する。 【解決手段】 人間の聴覚フィルタの帯域幅特性に応じ
て周波数別に臨界帯域幅を求める臨界帯域幅計算部と、
前記臨界帯域幅に所定のスケーリング係数を掛けて修正
された臨界帯域幅を使って局所的な位相変化の周波数範
囲を設定する周波数範囲設定部と、周波数別に前記周波
数に隣接した周波数成分が前記周波数に該当する前記周
波数範囲に属するかどうかをチェックして、前記周波数
成分を有する信号の位相が聴覚特性からみて重要である
かどうかを判別する位相重要度判別部と、を含むように
構成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声信号位相情報処
理装置及びその方法に係り、具体的には、人間の聴覚認
知特性を考慮して重要な位相成分を識別する音声信号位
相情報処理装置及びその方法に関する。
【0002】
【従来の技術】従来、音声信号の位相変移による認知聴
覚学的な研究が進んでいるが、実際に利用可能な結果は
あまり知られていない。音声信号の位相変移による認知
聴覚学的な研究結果としては、例えば、イー.ウィッカ
ー(E.Zwicker)及びエイチ.ファスル(H.
Fastl)による「聴覚学−要素及びモデル(Psy
choacoustics−Facts and Mo
dels,Springer−Verlag,2nd
Eds,1999)」、及びビー.シー.ジェイ.ムー
ア(B.C.J.Moore)による「聴覚学概論(I
ntroduction to the psycho
logy of hearing,Academic
Press,4th Eds,1997)」に開示され
ている。これらの文献によれば、人間の聴覚機関のう
ち、内耳の蝸牛殻はフィルタ・バンクとしてモデリング
できる。このフィルタ・バンクは帯域通過フィルタで構
成され、フィルタの中心周波数が与えられるときに該フ
ィルタの通過帯域幅が推定可能である。また、この内耳
における音声信号の信号処理は、各フィルタの臨界帯域
を単位とする多チャンネル信号処理であることが知られ
ている。
【0003】音声信号の位相変移をこのような観点から
みる場合、「局所的な位相変化(local phas
e change)」とは、同じ臨界帯域内に(同じチ
ャンネル内に)存在する信号成分間の相対的な位相関係
が変化することを意味する。一方、「全体的な位相変化
(global phase change)」とは、
同じ臨界帯域内の信号成分間の相対的な位相関係は維持
されながら、チャンネル間の位相関係が変化することを
意味する。また、学術的には完全に確立されているとは
言えないが、位相に対する聴覚認知に関して知られてい
ることとしては人間の耳が前記全体的な位相変化には鈍
いのに対し、前記局所的な位相変化にはある程度敏感で
あることが挙げられる。このことは、アール.ディー.
パッターソン(R.D.Patterson)による
「単聴位相認識のパルス・リボン・モデル(A pul
se ribbon model of monaur
alphase perception,J.Acou
st.Soc.Am.vol.82,no.5,pp.
1560−1586,1987)」、及びエム.アー
ル.シュロイダー(M.R.Schroeder)によ
る「単聴位相感知度に関する新しい研究結果(New
result concerning monaura
l phase sensitivity,J.Aco
ust.Soc.Am.,vol.31,p.157
9,1959)」に開示されている。
【0004】さらに、アール.ジェイ.マッコーラリ−
(R.J.MacAulary)及びティー.エフ.ク
アチアリ(T.F.Quatieri)による「音声コ
ーディング及び合成におけるサイン・コーディング(S
inusoidal coding in Speec
h Coding and Synthesis,W.
B.Kleijn and K.K.Paliwai E
ds,Elsevier,pp.121−173,19
98)」、ジェイ.エス.マルクス(J.S.Marq
ues)及びエル.ビー.アルメイダ(L.B.Alm
eida)による「音声及び非音性のサイン・モデリン
グ(Sinusoidal modeling of
voiced and unvoiced speec
h,inProc.ICASSP,pp.203−20
6,1983)」、及びジェイ.エス.アルクス(J.
S.Marques)、エル.ビー.アルメイダ(L.
B.Almeida)、ジェイ.エム.トリボレット
(J.M.Tribolet)による「4.8kb/s
の高調波方式コーディング(Harmonic cod
ing at 4.8kb/s,in Proc.IC
ASSP,pp.17−20,1990)」には、高調
波方式音声符号化システムにおける位相情報処理につい
ての記載がある。これらの文献によれば、高調波方式音
声符号化システムにおいては、以下の(6)式のように
表される音声の励起信号(excitation si
gnal)が使用されている。
【0005】
【数6】 前記(6)式中、ω0は基本周波数を、Akは高調波のス
ペクトルサイズを、そしてθkは高調波の位相を表わ
す。
【0006】前記音声の励起信号は音声のスペクトル包
落線によってモデリングされたフィルタの入力として使
用され、最終的にはこの音声の励起信号から音声信号が
得られる。そのため、音声符号化システムにおいてはス
ペクトル包落線フィルタ係数、高調波のスペクトルサイ
ズAk、基本周波数ω0、高調波の位相θkなどを量子化
処理して伝送し、音声復号化システムにおいては伝送さ
れたパラメータを使用して音声信号を合成する。
【0007】従来の高調波方式音声符号化システムにお
いては、スペクトル位相情報θkは信号のスペクトルサ
イズ情報Akに比べて考慮される度合いが小さいもので
あった。すなわち、一般に、送信システムにおいて音声
情報の位相情報を伝送することなく、受信システムにお
いて位相が連続的に変わるという条件を用いて位相を産
出する方法が使用されていた。
【0008】ところが、前記従来の高調波方式音声符号
化システムの方法により合成された音声信号では、充分
に満足のゆく音質を提供することが難しいという問題が
ある。しかも、この問題を解決すべく位相情報を全てコ
ーディングすると、位相の情報量が多過ぎてしまうとい
った問題が発生する。
【0009】
【発明が解決しようとする課題】本発明は上記事情に鑑
みて成されたものであり、その目的は、音声信号の位相
成分を選択的にコーディングまたは合成できるように、
人間の聴覚特性を考慮して重要な位相成分を識別する音
声信号位相情報処理装置を提供することである。
【0010】本発明の他の目的は、前記音声信号位相情
報処理装置で実行される音声信号位相情報処理方法を提
供することである。
【0011】
【課題を解決するための手段】本発明の前記目的を達成
するために、本発明の第1の態様による音声信号位相情
報処理装置は、相異なる周波数成分を有する周期信号の
離散的な合計で表わされるデジタル音声の位相成分を処
理する装置において、人間の聴覚フィルタの帯域幅特性
に応じて周波数別に臨界帯域幅を求める臨界帯域幅計算
部と、前記臨界帯域幅に所定のスケーリング係数を掛け
て修正された臨界帯域幅を使用して局所的な位相変化の
周波数範囲を設定する周波数範囲設定部と、周波数別に
前記周波数に隣接した周波数成分が前記周波数に該当す
る前記周波数範囲に属するかどうかをチェックして、前
記周波数成分を有する信号の位相が聴覚特性からみて重
要であるかどうかを判別する位相重要度判別部と、を含
むように構成するとよい。
【0012】また、本発明の前記目的を達成するため
に、本発明の第2の態様による音声信号位相情報処理装
置は、前記第1の態様において、音声信号を相異なる周
波数成分を有する周期信号の離散的な合計に変換する音
声信号変換部をさらに含むように構成することが好まし
い。
【0013】さらに、本発明の前記目的を達成するため
に、本発明の第3の態様による音声信号位相情報処理装
置は、前記第1の態様において、前記スケーリング係数
が1よりも小さいことが望ましい。
【0014】そして、本発明の前記目的を達成するため
に、本発明の第4の態様による音声信号位相情報処理装
置は、前記第1の態様において、前記位相重要度判別部
が聴覚特性からみて重要な位相に該当する周波数の集合
を求めるように構成すると都合がよい。
【0015】さらにまた、本発明の前記目的を達成する
ために、本発明の第5の態様による音声信号位相情報処
理装置は、Lを1よりも大きい所定の正の数とし、
l、ωl及びθlをそれぞれl番目の周期信号の振幅、
周波数及び位相とし、且つ以下の(1)が成り立つ場合
に、音声信号を以下の(2)式に変換する音声信号変換
部と、人間の聴覚フィルタの帯域幅特性に応じて周波数
別に臨界帯域幅を求める臨界帯域幅計算部と、前記臨界
帯域幅に所定のスケーリング係数を掛けて修正された臨
界帯域幅ωk,UB及びωk,LBを求め、周波数ωlを範囲の
上限値とし且つ以下の(3)の条件を満足するチャンネ
ルの周波数集合をC(ωl,1)と設定し、また周波数
ωlを範囲の下限値とし且つ以下の(4)の条件を満足
するチャンネルの周波数集合をC(ωl,2)と設定す
る周波数範囲設定部と、周波数ωlに対し以下の(5)
の条件を満足するかどうかを判別し、この条件を満足す
る場合には周波数ωlの位相θlが聴覚特性からみて重要
ではない位相であることを示し、且つこの条件を満足し
ない場合には、周波数ωlの位相θlが聴覚特性からみて
重要な位相であることを示す重要度データを出力する位
相重要度判別部と、を含むように構成してもよい。
【数1】
【数2】
【数3】
【数4】
【数5】
【0016】本発明の他の目的を達成するために、本発
明の第6の態様による音声信号位相情報処理方法は、
(a)音声信号を相異なる周波数成分を有する周期信号
の離散的な合計で表わすステップと、(b)人間の聴覚
フィルタの帯域幅特性に応じて周波数別に臨界帯域幅を
求めるステップと、(c)前記臨界帯域幅に所定のスケ
ーリング係数を掛けて修正された臨界帯域幅を求めるス
テップと、(d)前記ステップ(c)で修正された臨界
帯域幅を使用して局所的な位相変化の周波数範囲を設定
するステップと、(e)周波数別に前記周波数に隣接し
た周波数成分が前記周波数に該当する前記周波数範囲に
属するかどうかをチェックして、前記周波数成分を有す
る信号の位相が聴覚特性からみて重要であるかどうかを
判別するステップと、を含むように構成すると都合がよ
い。
【0017】また、本発明の他の目的を達成するため
に、本発明の第7の態様による音声信号位相情報処理方
法は、前記第6の態様において、前記スケーリング係数
は1よりも小さいことが好ましい。
【0018】そして、本発明の前記他の目的を達成する
ために、本発明の第8の態様による音声信号位相情報処
理方法は、前記第6の態様において、(a)Lを1より
も大きい所定の正の数とし、Al、ωl及びθlをそれぞ
れl番目の周期信号の振幅、周波数及び位相とし、且つ
前記(1)が成り立つ場合に、音声信号を前記(2)式
で表わすステップと、(b)人間の聴覚フィルタの帯域
幅特性に応じて周波数別に臨界帯域幅を求めるステップ
と、(c)前記臨界帯域幅に所定のスケーリング係数を
掛けて修正された臨界帯域幅ωk,UB及びωk,LBを求める
ステップと、(d−1)周波数ωlを範囲の上限値とし
且つ前記(3)の条件を満足するチャンネルの周波数集
合をC(ωl,1)と設定するステップと、(d−2)
周波数ωlを範囲の下限値とし且つ前記(4)の条件を
満足するチャンネルの周波数集合をC(ωl,2)と設
定するステップと、(e)周波数ωlに対し前記(5)
の条件を満足するかどうかを判別するステップと、(e
−1)前記ステップ(e)において、前記(5)の条件
を満足する場合には、周波数ωlの位相を聴覚特性から
みて重要ではない位相であると決定するステップと、
(e−2)前記ステップ(e)において、前記(5)の
条件を満足しない場合には、周波数の位相を聴覚特性か
らみて重要な位相であると決定するステップと、(f)
lがLである場合には終了し、lがLではない場合に
は、lを1だけインクリメントしてステップ(e)に戻
るステップと、を含むことが好ましい。
【0019】
【発明の実施の形態】以下、添付した図面に基づき、本
発明の望ましい実施の形態について詳細に説明する。図
1は、本発明に係る音声信号位相情報処理装置の一例の
ブロック構成図であり、図2は、前記音声信号位相情報
処理装置で実行される音声信号位相情報処理方法の一例
のフローチャートである。なお、図2は以下で随時参照
される。図1を参照すると、本発明に係る音声信号位相
情報処理装置は、臨界帯域幅計算部100、周波数範囲
設定部102、及び位相重要度判別部104を具備して
成る。
【0020】以下、前記音声信号位相情報処理装置の動
作について説明する。前提条件として、この本発明の実
施の形態においては、合成したいデジタル信号を以下の
(2)式のように表わし得るものとする(ステップ20
0)。
【数2】 前記(2)式中、Lは1よりも大きい所定の正の数を、
そしてAl、ωl及びθ lはそれぞれl番目の周期信号の
振幅、周波数及び位相を表わす。また、前記(2)式
は、以下の(3)の条件を満足する。
【数3】
【0021】また、このデジタル信号は周波数領域にお
いて各ωlにおける線スペクトルで表わすこともでき
る。なお、前記音声信号位相情報処理装置は、必要に応
じて音声信号を相異なる周波数を有する周期信号の離散
的な合計に変換する変換部(図示せず)をさらに具備す
ることが可能である。
【0022】まず、臨界帯域幅計算部100で、人間の
聴覚フィルタの帯域幅特性に応じて前記聴覚フィルタに
該当するチャンネルの臨界帯域幅を求める(ステップ2
02)。人間の聴覚フィルタの帯域幅特性としては、例
えば、ERB(Equivalnent Rectan
gular Bandwidth)またはバーク・スケ
ール(Bark Scale)が適用可能である。
【0023】つぎに、周波数範囲設定部102で、前記
臨界帯域幅に所定のスケーリング係数αを掛けて修正さ
れた臨界帯域幅を求める(ステップ204)。また、周
波数範囲設定部102で、前記修正された臨界帯域幅を
使用して局所的な位相変化の周波数範囲ωl,UB及びω
l,LBを設定する(ステップ206)。この実施の形態に
おいてはスケーリング係数αを1とし、また周波数範囲
ωl,UB及びωl,LBは修正された臨界帯域幅と等しい幅を
有するように構成している。なお、このスケーリング係
数αは予め聴覚実験を行うことによって適宜に調整する
ことができるが、1よりも小さいことが好ましい。ま
た、周波数範囲ωl,UB及びωl,LBも前記と同様の聴覚実
験によってある程度調整することが可能である。
【0024】さらに、周波数範囲設定部102で、周波
数ωlを範囲の上限値とし且つ以下の(3)の条件を満
足するチャンネルの周波数集合をC(ωl,1)として
設定し、周波数ωlを範囲の下限値とし且つ以下の
(4)の条件を満足するチャンネルの周波数集合をC
(ωl,2)として設定する(ステップ208)。
【数3】
【数4】
【0025】そして、位相重要度判別部104で、周波
数ωlに対して、以下の(5)の条件を満足するかどう
かを判別する(ステップ220)。
【数5】
【0026】すなわち、位相重要度判別部104は、前
記(5)の条件を満足する場合には周波数ωlの位相θl
を聴覚特性からみて重要ではない位相であると決定(ス
テップ222)し、前記(5)の条件を満足しない場合
には周波数ωlの位相θlを聴覚特性からみて重要な位相
であると決定する(ステップ224)。すなわち、前記
(5)の条件を満足する周波数ωlの位相θlは聴覚特性
からみて重要ではない位相であると決定される。このよ
うにして、位相重要度判別部104は周波数ω lに対し
て前記(5)の条件を満足するかどうかを判別し、この
条件を満足する場合には周波数ωlの位相θlが聴覚特性
からみて重要ではない位相であることを表示する一方、
この条件を満足しない場合には周波数ωlの位相θlが聴
覚特性からみて重要な位相であることを表示する重要度
データを出力する。
【0027】また、位相重要度判別部104では、変数
lがLに到達したかどうかをチェックして(ステップ2
26)、lがLに到達したならば、判別作業を終了す
る。一方、lがLに到達していない場合には、lを1だ
けインクリメントして前記ステップ220に戻し(ステ
ップ228)、ステップ220、ステップ222または
ステップ224、ステップ226の動作を順次繰り返
す。このようにして、全ての周波数成分の位相に対して
判別作業が行われる。
【0028】図3(A)及び図3(B)は、位相重要度
の判別過程を説明するための図面である。ここで、図3
(A)は前記(5)の条件を満足している場合を示し、
図3(B)は前記(5)の条件を満足していない場合を
示す。
【0029】図3(A)を参照すると、周波数ωlは前
記(5)の条件を満足していることが分かる。このよう
に前記(5)の条件を満足させる周波数ωlは、1チャ
ンネル内にもっぱらその周波数成分の1つしか存在しな
い。従って、その位相θlに任意の位相値を適用して合
成したりコーディングしたりしても1チャンネル内の相
対的な位相関係が充分に維持されるため、このことが他
のチャンネルに大きな影響を及ぼすことはない。その結
果、元の信号とは異なる位相を有する信号が適用されて
も、聴覚上の違いを認知することが極めて難しくなる。
【0030】一方、図3(B)を参照すると、周波数ω
lは前記(5)の条件を満足していないことが分かる。
このように前記(5)の条件を満足しないωlは、1チ
ャンネル内に他の周波数成分のものが複数混在してい
る。このような周波数成分の混在によって生じる周波数
の位相変化は、チャンネル内の相対的な位相関係の変化
を招く。従って、ある程度以上の位相の変移は聴覚的に
認知することができる。その結果、例えば、該当の周波
数に任意の位相を適用して合成すると位相の変移を聴覚
的に認知できるようになる。
【0031】図4は、本発明に係る音声信号位相情報処
理装置で実行される音声信号位相情報処理方法におい
て、高調波信号に対する一例の位相重要度判別過程を説
明するためのグラフである。図4中、横軸はHz単位の
高調波信号の周波数に該当し、縦軸は振幅の大きさで表
されるスペクトルサイズに該当する。図4を参照する
と、周波数が増加するにつれてスペクトルサイズも増大
し、周波数が100Hzないし600Hzの範囲で位相
が重要ではないと認識され、また周波数が700Hzな
いし1000Hzの範囲で位相が重要である認識されて
いることが分かる。
【0032】一般に、人間の聴覚は、その特性から周波
数が高いほど臨界帯域幅は広くなる。従って、100H
zないし600Hzの周波数に該当する周波数成分は相
異なる2つの臨界帯域幅内に含まれない。従って、この
ような周波数の位相は、図3(A)を参照して説明した
ように、人間の聴覚の特性上重要ではない。その反面、
700Hzないし1000Hzの周波数に該当する周波
数成分は相異なる2つの臨界帯域幅内に含まれる。従っ
て、このような周波数の位相変化は、図3(B)を参照
して説明したように、人間の聴覚によって認知すること
ができる。
【0033】このような音声信号位相情報処理装置及び
その方法は、音声コーディングに応用することができ
る。すなわち、コーディング時には聴覚からみて重要な
位相成分のみをコーディングまたは合成し、デコーディ
ング時にコーディングされていない、すなわち、聴覚特
性からみて重要ではない位相成分は任意の値を適用して
合成しても聴覚特性からみてほとんど差が認知すること
ができない。従って、本発明に係る音声信号位相情報処
理装置及びその方法を適用して位相成分を伝送または合
成することにより音質の向上を図ることができ、必要な
位相情報量を減らすことが可能である。
【0034】図5は、NATC(NTT Advanc
ed Technology Corporatio
n;登録商標)データベースの女性話者の音声波形を示
す図である。また、図6は、この図5で示されるような
音声に対して本発明の方法、及び従来の方法を適用した
場合に、時間による伝送すべき位相成分の個数をそれぞ
れ比較して図示したものである。
【0035】図6において、従来の方法を適用した場合
の時間による伝送すべき位相成分の個数を実線にて示
し、本発明の方法を適用した場合の時間による伝送すべ
き位相成分の個数を点線にて示してある。図6を参照す
ると、本発明の方法を適用した場合には、低周波数の一
定領域で聴覚チャンネル内に1つのみ存在する周波数成
分が存在することになり、この成分は伝送する必然性が
ない。従って、伝送すべき位相成分の個数が減少するこ
ととなる。一方、伝送されない位相成分は連続的な位相
変化条件に基づいて任意に合成されることとなる。な
お、本発明者等が別途行ったERB(Equivaln
ent Rectangular Bandwidt
h)実験の結果より、聴覚チャンネルの幅は実線にて示
された位相成分がすべて伝送され、また伝送された位相
成分を使用して合成された音声と点線にて示され位相成
分のみを伝送して合成した音声とは聴覚認知からみて特
に差が生じないことが明らかとなっている。
【0036】また、図7は、本発明を適用することによ
って減少した位相成分の個数を百分率換算して示す図で
ある。図7に示す通り、本発明によって音声信号の伝送
すべき位相成分の個数が著しく減少していることが分か
る。なお、この本発明の実施の形態では、本発明の望ま
しい形態を用いて説明したが、本発明はこの形態に限定
されるものではなく、本発明の技術的思想に基づく限り
において適宜に変更することが可能である。
【0037】
【発明の効果】以上説明した通り、本発明に係る音声信
号位相情報処理装置及びその方法によれば、音声信号の
うち聴覚認知からみて重要な位相成分のみを適切に判別
することができる。
【0038】さらに、本発明に係る音声信号位相情報処
理装置及びその方法を音声コーディング方式に適用すれ
ば、音声信号のうち聴覚認知からみて重要な位相成分の
みを選択的にコーディングできることから、位相情報を
コーディングしない方法に比べて良好な音質が確保で
き、位相情報をすべてコーディングする方法に比べて情
報量を適切に減少させることができる。そして、本発明
は以上説明した音声信号位相情報処理に限定されるもの
ではなく、音声合成及び音声伝送の分野全般における当
業者によって本発明の技術的思想が理解されて本発明が
適用される限りにおいて、前記した効果と同様の効果を
奏することが可能である。
【図面の簡単な説明】
【図1】本発明に係る音声信号位相情報処理装置の一例
のブロック構成図である。
【図2】本発明に係る音声信号位相情報処理方法の一例
のフローチャートである。
【図3】(A)及び(B)はそれぞれ本発明に係る音声
信号位相情報処理装置で実行される一例及び他の例の位
相重要度判別過程を説明するための図面である。
【図4】本発明に係る音声信号位相情報処理装置で実行
される音声信号位相情報処理方法において、高調波信号
に対する一例の位相重要度判別過程を説明するためのグ
ラフである。
【図5】NATC(NTT Advanced Tec
hnology Corporation:登録商標)
データベースの女性話者の音声波形を示す図である。
【図6】図5で示される音声に対して本発明を適用した
場合の位相伝送量の減少効果を伝送すべき位相成分の個
数から説明するためのグラフである。
【図7】図5で示される音声に対して本発明を適用した
場合の位相伝送量の減少効果を伝送すべき位相成分の個
数の減少率から説明するためのグラフである。
【符号の説明】
100 臨界帯域幅計算部 102 周波数範囲設定部 104 位相重要度判別部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 相異なる周波数成分を有する周期信号の
    離散的な合計で表わされるデジタル音声の位相成分を処
    理する装置において、 人間の聴覚フィルタの帯域幅特性に応じて周波数別に臨
    界帯域幅を求める臨界帯域幅計算部と、 前記臨界帯域幅に所定のスケーリング係数を掛けて修正
    された臨界帯域幅を使用して局所的な位相変化の周波数
    範囲を設定する周波数範囲設定部と、 周波数別に前記周波数に隣接した周波数成分が前記周波
    数に該当する前記周波数範囲に属するかどうかをチェッ
    クして、前記周波数成分を有する信号の位相が聴覚特性
    からみて重要であるかどうかを判別する位相重要度判別
    部と、を含むことを特徴とする音声信号位相情報処理装
    置。
  2. 【請求項2】 音声信号を相異なる周波数成分を有する
    周期信号の離散的な合計に変換する音声信号変換部をさ
    らに含むことを特徴とする請求項1に記載の音声信号位
    相情報処理装置。
  3. 【請求項3】 前記スケーリング係数は、1よりも小さ
    いことを特徴とする請求項1に記載の音声信号位相情報
    処理装置。
  4. 【請求項4】 前記位相重要度判別部は、聴覚特性から
    みて重要な位相に該当する周波数の集合を求めることを
    特徴とする請求項1に記載の音声信号位相情報処理装
    置。
  5. 【請求項5】 音声信号の位相成分を処理する装置にお
    いて、 Lを1よりも大きい所定の正の数とし、Al、ωl及びθ
    lをそれぞれl番目の周期信号の振幅、周波数及び位相
    とし、且つ以下の(1)が成り立つ場合に、音声信号を
    以下の(2)式に変換する音声信号変換部と、 人間の聴覚フィルタの帯域幅特性に応じて周波数別に臨
    界帯域幅を求める臨界帯域幅計算部と、 前記臨界帯域幅に所定のスケーリング係数を掛けて修正
    された臨界帯域幅ωk, UB及びωk,LBを求め、周波数ωl
    を範囲の上限値とし且つ以下の(3)の条件を満足する
    チャンネルの周波数集合をC(ωl,1)と設定し、周
    波数ωlを範囲の下限値とし且つ以下の(4)の条件を
    満足するチャンネルの周波数集合をC(ω l,2)と設
    定する周波数範囲設定部と、 周波数ωlに対し以下の(5)の条件を満足するかどう
    かを判別して、(5)の条件を満足する場合には周波数
    ωlの位相θlが聴覚特性からみて重要ではない位相であ
    ることを示し、且つ(5)の条件を満足しない場合に
    は、周波数ωlの位相θlが聴覚特性からみて重要な位相
    であることを示す重要度データを出力する位相重要度判
    別部と、を含むことを特徴とする音声信号位相情報処理
    装置。 【数1】 【数2】 【数3】 【数4】 【数5】
  6. 【請求項6】 音声信号の位相成分を処理する方法にお
    いて、 (a)音声信号を相異なる周波数成分を有する周期信号
    の離散的な合計で表わすステップと、 (b)人間の聴覚フィルタの帯域幅特性に応じて周波数
    別に臨界帯域幅を求めるステップと、 (c)前記臨界帯域幅に所定のスケーリング係数を掛け
    て修正された臨界帯域幅を求めるステップと、 (d)前記ステップ(c)で修正された臨界帯域幅を使
    用して局所的な位相変化の周波数範囲を設定するステッ
    プと、 (e)周波数別に前記周波数に隣接した周波数成分が前
    記周波数に該当する前記周波数範囲に属するかどうかを
    チェックして、前記周波数成分を有する信号の位相が聴
    覚特性からみて重要であるかどうかを判別するステップ
    と、を含むことを特徴とする音声信号位相情報処理方
    法。
  7. 【請求項7】 前記スケーリング係数は、1よりも小さ
    いことを特徴とする請求項6に記載の音声信号位相情報
    処理方法。
  8. 【請求項8】 音声信号の位相成分を処理する方法にお
    いて、 (a)Lを1よりも大きい所定の正の数とし、Al、ωl
    及びθlをそれぞれl番目の周期信号の振幅、周波数及
    び位相とし、且つ前記(1)が成り立つ場合に、音声信
    号を前記(2)式で表わすステップと、 (b)人間の聴覚フィルタの帯域幅特性に応じて周波数
    別に臨界帯域幅を求めるステップと、 (c)前記臨界帯域幅に所定のスケーリング係数を掛け
    て修正された臨界帯域幅ωk,UB及びωk,LBを求めるステ
    ップと、 (d−1)周波数ωlを範囲の上限値とし且つ前記
    (3)の条件を満足するチャンネルの周波数集合をC
    (ωl,1)と設定するステップと、 (d−2)周波数ωlを範囲の下限値とし且つ前記
    (4)の条件を満足するチャンネルの周波数集合をC
    (ωl,2)と設定するステップと、 (e)周波数ωlに対し前記(5)の条件を満足するか
    どうかを判別するステップと、 (e−1)前記ステップ(e)において、前記条件を満
    足する場合には、周波数ωlの位相を聴覚特性からみて
    重要ではない位相であると決定するステップと、 (e−2)前記ステップ(e)において、前記条件を満
    足しない場合には、周波数の位相を聴覚特性からみて重
    要な位相であると決定するステップと、 (f)lがLである場合には終了し、lがLでない場合
    にはlを1だけインクリメントしてステップ(e)に戻
    るステップと、を含むことを特徴とする音声信号位相情
    報処理方法。
JP2000139517A 1999-05-15 2000-05-12 音声信号位相情報処理装置及びその方法 Withdrawn JP2000353000A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1019990017505A KR100297832B1 (ko) 1999-05-15 1999-05-15 음성 신호 위상 정보 처리 장치 및 그 방법
KR99-17505 1999-05-15

Publications (1)

Publication Number Publication Date
JP2000353000A true JP2000353000A (ja) 2000-12-19

Family

ID=19585756

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000139517A Withdrawn JP2000353000A (ja) 1999-05-15 2000-05-12 音声信号位相情報処理装置及びその方法

Country Status (6)

Country Link
US (1) US6571207B1 (ja)
JP (1) JP2000353000A (ja)
KR (1) KR100297832B1 (ja)
DE (1) DE10023157A1 (ja)
FR (1) FR2793589B1 (ja)
GB (1) GB2352598B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100707173B1 (ko) 2004-12-21 2007-04-13 삼성전자주식회사 저비트율 부호화/복호화방법 및 장치
CN100508025C (zh) * 2002-04-19 2009-07-01 皇家飞利浦电子股份有限公司 合成语音的方法和设备及分析语音的方法和设备

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2396538B (en) * 2000-05-16 2004-11-03 Samsung Electronics Co Ltd An apparatus and method for quantizing phase of speech signal using perceptual weighting function
US7376553B2 (en) * 2003-07-08 2008-05-20 Robert Patel Quinn Fractal harmonic overtone mapping of speech and musical sounds
ITUD20070009A1 (it) * 2007-01-18 2008-07-19 Univ Parma Dispositivo per il trattamento dell'acufene
KR101261524B1 (ko) * 2007-03-14 2013-05-06 삼성전자주식회사 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치
KR101317269B1 (ko) * 2007-06-07 2013-10-14 삼성전자주식회사 정현파 오디오 코딩 방법 및 장치, 그리고 정현파 오디오디코딩 방법 및 장치
KR20090008611A (ko) * 2007-07-18 2009-01-22 삼성전자주식회사 오디오 신호의 인코딩 방법 및 장치
US10847172B2 (en) 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5388181A (en) * 1990-05-29 1995-02-07 Anderson; David J. Digital audio compression system
US5632005A (en) * 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
KR100228688B1 (ko) * 1991-01-08 1999-11-01 쥬더 에드 에이. 다차원 음장용 인코우더/디코우더
DE4212339A1 (de) * 1991-08-12 1993-02-18 Standard Elektrik Lorenz Ag Codierverfahren fuer audiosignale mit 32 kbit/s
US5381512A (en) * 1992-06-24 1995-01-10 Moscom Corporation Method and apparatus for speech feature recognition based on models of auditory signal processing
US5581653A (en) * 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
US5727119A (en) * 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100508025C (zh) * 2002-04-19 2009-07-01 皇家飞利浦电子股份有限公司 合成语音的方法和设备及分析语音的方法和设备
KR100707173B1 (ko) 2004-12-21 2007-04-13 삼성전자주식회사 저비트율 부호화/복호화방법 및 장치

Also Published As

Publication number Publication date
KR100297832B1 (ko) 2001-09-26
FR2793589A1 (fr) 2000-11-17
FR2793589B1 (fr) 2002-07-26
GB2352598A (en) 2001-01-31
US6571207B1 (en) 2003-05-27
GB2352598B (en) 2003-09-24
KR20000073914A (ko) 2000-12-05
DE10023157A1 (de) 2001-01-04
GB0010945D0 (en) 2000-06-28

Similar Documents

Publication Publication Date Title
Schroeder Vocoders: Analysis and synthesis of speech
US4051331A (en) Speech coding hearing aid system utilizing formant frequency transformation
RU2487426C2 (ru) Устройство и способ преобразования звукового сигнала в параметрическое представление, устройство и способ модификации параметрического представления, устройство и способ синтеза параметрического представления звукового сигнала
US6704711B2 (en) System and method for modifying speech signals
EP0737351B1 (en) Method and system for detecting and generating transient conditions in auditory signals
CN103250209B (zh) 改善音频重现的助听器和方法
US8891778B2 (en) Speech enhancement
EP0993670B1 (en) Method and apparatus for speech enhancement in a speech communication system
CN1909060B (zh) 提取浊音/清音分类信息的方法和设备
JPH07248794A (ja) 音声信号処理方法
JP2000353000A (ja) 音声信号位相情報処理装置及びその方法
US7373296B2 (en) Method and apparatus for classifying a spectro-temporal interval of an input audio signal, and a coder including such an apparatus
Plomp Perception of speech as a modulated signal
US7013266B1 (en) Method for determining speech quality by comparison of signal properties
Steeneken et al. Basics of the STI measuring method
Drullman et al. Effect of temporal modulation reduction on spectral contrasts in speech
Hillenbrand et al. Speech perception based on spectral peaks versus spectral shape
David Signal theory in speech transmission
KR20050074574A (ko) 오디오 성분을 생성하기 위한 방법 및 장치
David et al. Voice-excited vocoders for practical speech bandwidth reduction
Culling et al. Speech perception from monaural and binaural information
Vuppala et al. Automatic detection of breathy voiced vowels in Gujarati speech
Patwardhan et al. Effect of voice quality on frequency-warped modeling of vowel spectra
Heikkinen A subjective performance study of a sinusoidal speech coding model
Gold Formant representation of parameters for a channel vocoder

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20061101

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20061107

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070226

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090518