JP2000353000A

JP2000353000A - 音声信号位相情報処理装置及びその方法

Info

Publication number: JP2000353000A
Application number: JP2000139517A
Authority: JP
Inventors: Doh Suk Kim; 度錫金
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 1999-05-15
Filing date: 2000-05-12
Publication date: 2000-12-19
Also published as: KR100297832B1; FR2793589A1; FR2793589B1; GB2352598A; US6571207B1; GB2352598B; KR20000073914A; DE10023157A1; GB0010945D0

Abstract

(57)【要約】【課題】音声信号の位相成分を選択的にコーディング
または合成できるように、人間の聴覚特性を考慮して重
要な位相成分を識別する音声信号位相情報処理装置及び
その方法を提供する。【解決手段】人間の聴覚フィルタの帯域幅特性に応じ
て周波数別に臨界帯域幅を求める臨界帯域幅計算部と、
前記臨界帯域幅に所定のスケーリング係数を掛けて修正
された臨界帯域幅を使って局所的な位相変化の周波数範
囲を設定する周波数範囲設定部と、周波数別に前記周波
数に隣接した周波数成分が前記周波数に該当する前記周
波数範囲に属するかどうかをチェックして、前記周波数
成分を有する信号の位相が聴覚特性からみて重要である
かどうかを判別する位相重要度判別部と、を含むように
構成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声信号位相情報処
理装置及びその方法に係り、具体的には、人間の聴覚認
知特性を考慮して重要な位相成分を識別する音声信号位
相情報処理装置及びその方法に関する。

【０００２】

【従来の技術】従来、音声信号の位相変移による認知聴
覚学的な研究が進んでいるが、実際に利用可能な結果は
あまり知られていない。音声信号の位相変移による認知
聴覚学的な研究結果としては、例えば、イー．ウィッカ
ー（Ｅ．Ｚｗｉｃｋｅｒ）及びエイチ．ファスル（Ｈ．
Ｆａｓｔｌ）による「聴覚学−要素及びモデル（Ｐｓｙ
ｃｈｏａｃｏｕｓｔｉｃｓ−ＦａｃｔｓａｎｄＭｏ
ｄｅｌｓ，Ｓｐｒｉｎｇｅｒ−Ｖｅｒｌａｇ，２ｎｄ
Ｅｄｓ，１９９９）」、及びビー．シー．ジェイ．ムー
ア（Ｂ．Ｃ．Ｊ．Ｍｏｏｒｅ）による「聴覚学概論（Ｉ
ｎｔｒｏｄｕｃｔｉｏｎｔｏｔｈｅｐｓｙｃｈｏ
ｌｏｇｙｏｆｈｅａｒｉｎｇ，Ａｃａｄｅｍｉｃ
Ｐｒｅｓｓ，４ｔｈＥｄｓ，１９９７）」に開示され
ている。これらの文献によれば、人間の聴覚機関のう
ち、内耳の蝸牛殻はフィルタ・バンクとしてモデリング
できる。このフィルタ・バンクは帯域通過フィルタで構
成され、フィルタの中心周波数が与えられるときに該フ
ィルタの通過帯域幅が推定可能である。また、この内耳
における音声信号の信号処理は、各フィルタの臨界帯域
を単位とする多チャンネル信号処理であることが知られ
ている。

【０００３】音声信号の位相変移をこのような観点から
みる場合、「局所的な位相変化（ｌｏｃａｌｐｈａｓ
ｅｃｈａｎｇｅ）」とは、同じ臨界帯域内に（同じチ
ャンネル内に）存在する信号成分間の相対的な位相関係
が変化することを意味する。一方、「全体的な位相変化
（ｇｌｏｂａｌｐｈａｓｅｃｈａｎｇｅ）」とは、
同じ臨界帯域内の信号成分間の相対的な位相関係は維持
されながら、チャンネル間の位相関係が変化することを
意味する。また、学術的には完全に確立されているとは
言えないが、位相に対する聴覚認知に関して知られてい
ることとしては人間の耳が前記全体的な位相変化には鈍
いのに対し、前記局所的な位相変化にはある程度敏感で
あることが挙げられる。このことは、アール．ディー．
パッターソン（Ｒ．Ｄ．Ｐａｔｔｅｒｓｏｎ）による
「単聴位相認識のパルス・リボン・モデル（Ａｐｕｌ
ｓｅｒｉｂｂｏｎｍｏｄｅｌｏｆｍｏｎａｕｒ
ａｌｐｈａｓｅｐｅｒｃｅｐｔｉｏｎ，Ｊ．Ａｃｏｕ
ｓｔ．Ｓｏｃ．Ａｍ．ｖｏｌ．８２，ｎｏ．５，ｐｐ．
１５６０−１５８６，１９８７）」、及びエム．アー
ル．シュロイダー（Ｍ．Ｒ．Ｓｃｈｒｏｅｄｅｒ）によ
る「単聴位相感知度に関する新しい研究結果（Ｎｅｗ
ｒｅｓｕｌｔｃｏｎｃｅｒｎｉｎｇｍｏｎａｕｒａ
ｌｐｈａｓｅｓｅｎｓｉｔｉｖｉｔｙ，Ｊ．Ａｃｏ
ｕｓｔ．Ｓｏｃ．Ａｍ．，ｖｏｌ．３１，ｐ．１５７
９，１９５９）」に開示されている。

【０００４】さらに、アール．ジェイ．マッコーラリ−
（Ｒ．Ｊ．ＭａｃＡｕｌａｒｙ）及びティー．エフ．ク
アチアリ（Ｔ．Ｆ．Ｑｕａｔｉｅｒｉ）による「音声コ
ーディング及び合成におけるサイン・コーディング（Ｓ
ｉｎｕｓｏｉｄａｌｃｏｄｉｎｇｉｎＳｐｅｅｃ
ｈＣｏｄｉｎｇａｎｄＳｙｎｔｈｅｓｉｓ，Ｗ．
Ｂ．ＫｌｅｉｊｎａｎｄＫ．Ｋ．ＰａｌｉｗａｉＥ
ｄｓ，Ｅｌｓｅｖｉｅｒ，ｐｐ．１２１−１７３，１９
９８）」、ジェイ．エス．マルクス（Ｊ．Ｓ．Ｍａｒｑ
ｕｅｓ）及びエル．ビー．アルメイダ（Ｌ．Ｂ．Ａｌｍ
ｅｉｄａ）による「音声及び非音性のサイン・モデリン
グ（Ｓｉｎｕｓｏｉｄａｌｍｏｄｅｌｉｎｇｏｆ
ｖｏｉｃｅｄａｎｄｕｎｖｏｉｃｅｄｓｐｅｅｃ
ｈ，ｉｎＰｒｏｃ．ＩＣＡＳＳＰ，ｐｐ．２０３−２０
６，１９８３）」、及びジェイ．エス．アルクス（Ｊ．
Ｓ．Ｍａｒｑｕｅｓ）、エル．ビー．アルメイダ（Ｌ．
Ｂ．Ａｌｍｅｉｄａ）、ジェイ．エム．トリボレット
（Ｊ．Ｍ．Ｔｒｉｂｏｌｅｔ）による「４．８ｋｂ／ｓ
の高調波方式コーディング（Ｈａｒｍｏｎｉｃｃｏｄ
ｉｎｇａｔ４．８ｋｂ／ｓ，ｉｎＰｒｏｃ．ＩＣ
ＡＳＳＰ，ｐｐ．１７−２０，１９９０）」には、高調
波方式音声符号化システムにおける位相情報処理につい
ての記載がある。これらの文献によれば、高調波方式音
声符号化システムにおいては、以下の（６）式のように
表される音声の励起信号（ｅｘｃｉｔａｔｉｏｎｓｉ
ｇｎａｌ）が使用されている。

【０００５】

【数６】前記（６）式中、ω₀は基本周波数を、Ａ_kは高調波のス
ペクトルサイズを、そしてθ_kは高調波の位相を表わ
す。

【０００６】前記音声の励起信号は音声のスペクトル包
落線によってモデリングされたフィルタの入力として使
用され、最終的にはこの音声の励起信号から音声信号が
得られる。そのため、音声符号化システムにおいてはス
ペクトル包落線フィルタ係数、高調波のスペクトルサイ
ズＡ_k、基本周波数ω₀、高調波の位相θ_kなどを量子化
処理して伝送し、音声復号化システムにおいては伝送さ
れたパラメータを使用して音声信号を合成する。

【０００７】従来の高調波方式音声符号化システムにお
いては、スペクトル位相情報θ_kは信号のスペクトルサ
イズ情報Ａ_kに比べて考慮される度合いが小さいもので
あった。すなわち、一般に、送信システムにおいて音声
情報の位相情報を伝送することなく、受信システムにお
いて位相が連続的に変わるという条件を用いて位相を産
出する方法が使用されていた。

【０００８】ところが、前記従来の高調波方式音声符号
化システムの方法により合成された音声信号では、充分
に満足のゆく音質を提供することが難しいという問題が
ある。しかも、この問題を解決すべく位相情報を全てコ
ーディングすると、位相の情報量が多過ぎてしまうとい
った問題が発生する。

【０００９】

【発明が解決しようとする課題】本発明は上記事情に鑑
みて成されたものであり、その目的は、音声信号の位相
成分を選択的にコーディングまたは合成できるように、
人間の聴覚特性を考慮して重要な位相成分を識別する音
声信号位相情報処理装置を提供することである。

【００１０】本発明の他の目的は、前記音声信号位相情
報処理装置で実行される音声信号位相情報処理方法を提
供することである。

【００１１】

【課題を解決するための手段】本発明の前記目的を達成
するために、本発明の第１の態様による音声信号位相情
報処理装置は、相異なる周波数成分を有する周期信号の
離散的な合計で表わされるデジタル音声の位相成分を処
理する装置において、人間の聴覚フィルタの帯域幅特性
に応じて周波数別に臨界帯域幅を求める臨界帯域幅計算
部と、前記臨界帯域幅に所定のスケーリング係数を掛け
て修正された臨界帯域幅を使用して局所的な位相変化の
周波数範囲を設定する周波数範囲設定部と、周波数別に
前記周波数に隣接した周波数成分が前記周波数に該当す
る前記周波数範囲に属するかどうかをチェックして、前
記周波数成分を有する信号の位相が聴覚特性からみて重
要であるかどうかを判別する位相重要度判別部と、を含
むように構成するとよい。

【００１２】また、本発明の前記目的を達成するため
に、本発明の第２の態様による音声信号位相情報処理装
置は、前記第１の態様において、音声信号を相異なる周
波数成分を有する周期信号の離散的な合計に変換する音
声信号変換部をさらに含むように構成することが好まし
い。

【００１３】さらに、本発明の前記目的を達成するため
に、本発明の第３の態様による音声信号位相情報処理装
置は、前記第１の態様において、前記スケーリング係数
が１よりも小さいことが望ましい。

【００１４】そして、本発明の前記目的を達成するため
に、本発明の第４の態様による音声信号位相情報処理装
置は、前記第１の態様において、前記位相重要度判別部
が聴覚特性からみて重要な位相に該当する周波数の集合
を求めるように構成すると都合がよい。

【００１５】さらにまた、本発明の前記目的を達成する
ために、本発明の第５の態様による音声信号位相情報処
理装置は、Ｌを１よりも大きい所定の正の数とし、
Ａ_l、ω_l及びθ_lをそれぞれｌ番目の周期信号の振幅、
周波数及び位相とし、且つ以下の（１）が成り立つ場合
に、音声信号を以下の（２）式に変換する音声信号変換
部と、人間の聴覚フィルタの帯域幅特性に応じて周波数
別に臨界帯域幅を求める臨界帯域幅計算部と、前記臨界
帯域幅に所定のスケーリング係数を掛けて修正された臨
界帯域幅ω_k,UB及びω_k,LBを求め、周波数ω_lを範囲の
上限値とし且つ以下の（３）の条件を満足するチャンネ
ルの周波数集合をＣ（ω_l，１）と設定し、また周波数
ω_lを範囲の下限値とし且つ以下の（４）の条件を満足
するチャンネルの周波数集合をＣ（ω_l，２）と設定す
る周波数範囲設定部と、周波数ω_lに対し以下の（５）
の条件を満足するかどうかを判別し、この条件を満足す
る場合には周波数ω_lの位相θ_lが聴覚特性からみて重要
ではない位相であることを示し、且つこの条件を満足し
ない場合には、周波数ω_lの位相θ_lが聴覚特性からみて
重要な位相であることを示す重要度データを出力する位
相重要度判別部と、を含むように構成してもよい。

【数１】

【数２】

【数３】

【数４】

【数５】

【００１６】本発明の他の目的を達成するために、本発
明の第６の態様による音声信号位相情報処理方法は、
（ａ）音声信号を相異なる周波数成分を有する周期信号
の離散的な合計で表わすステップと、（ｂ）人間の聴覚
フィルタの帯域幅特性に応じて周波数別に臨界帯域幅を
求めるステップと、（ｃ）前記臨界帯域幅に所定のスケ
ーリング係数を掛けて修正された臨界帯域幅を求めるス
テップと、（ｄ）前記ステップ（ｃ）で修正された臨界
帯域幅を使用して局所的な位相変化の周波数範囲を設定
するステップと、（ｅ）周波数別に前記周波数に隣接し
た周波数成分が前記周波数に該当する前記周波数範囲に
属するかどうかをチェックして、前記周波数成分を有す
る信号の位相が聴覚特性からみて重要であるかどうかを
判別するステップと、を含むように構成すると都合がよ
い。

【００１７】また、本発明の他の目的を達成するため
に、本発明の第７の態様による音声信号位相情報処理方
法は、前記第６の態様において、前記スケーリング係数
は１よりも小さいことが好ましい。

【００１８】そして、本発明の前記他の目的を達成する
ために、本発明の第８の態様による音声信号位相情報処
理方法は、前記第６の態様において、（ａ）Ｌを１より
も大きい所定の正の数とし、Ａ_l、ω_l及びθ_lをそれぞ
れｌ番目の周期信号の振幅、周波数及び位相とし、且つ
前記（１）が成り立つ場合に、音声信号を前記（２）式
で表わすステップと、（ｂ）人間の聴覚フィルタの帯域
幅特性に応じて周波数別に臨界帯域幅を求めるステップ
と、（ｃ）前記臨界帯域幅に所定のスケーリング係数を
掛けて修正された臨界帯域幅ω_k,UB及びω_k,LBを求める
ステップと、（ｄ−１）周波数ω_lを範囲の上限値とし
且つ前記（３）の条件を満足するチャンネルの周波数集
合をＣ（ω_l，１）と設定するステップと、（ｄ−２）
周波数ω_lを範囲の下限値とし且つ前記（４）の条件を
満足するチャンネルの周波数集合をＣ（ω_l，２）と設
定するステップと、（ｅ）周波数ω_lに対し前記（５）
の条件を満足するかどうかを判別するステップと、（ｅ
−１）前記ステップ（ｅ）において、前記（５）の条件
を満足する場合には、周波数ω_lの位相を聴覚特性から
みて重要ではない位相であると決定するステップと、
（ｅ−２）前記ステップ（ｅ）において、前記（５）の
条件を満足しない場合には、周波数の位相を聴覚特性か
らみて重要な位相であると決定するステップと、（ｆ）
ｌがＬである場合には終了し、ｌがＬではない場合に
は、ｌを１だけインクリメントしてステップ（ｅ）に戻
るステップと、を含むことが好ましい。

【００１９】

【発明の実施の形態】以下、添付した図面に基づき、本
発明の望ましい実施の形態について詳細に説明する。図
１は、本発明に係る音声信号位相情報処理装置の一例の
ブロック構成図であり、図２は、前記音声信号位相情報
処理装置で実行される音声信号位相情報処理方法の一例
のフローチャートである。なお、図２は以下で随時参照
される。図１を参照すると、本発明に係る音声信号位相
情報処理装置は、臨界帯域幅計算部１００、周波数範囲
設定部１０２、及び位相重要度判別部１０４を具備して
成る。

【００２０】以下、前記音声信号位相情報処理装置の動
作について説明する。前提条件として、この本発明の実
施の形態においては、合成したいデジタル信号を以下の
（２）式のように表わし得るものとする（ステップ２０
０）。

【数２】前記（２）式中、Ｌは１よりも大きい所定の正の数を、
そしてＡ_l、ω_l及びθ _lはそれぞれｌ番目の周期信号の
振幅、周波数及び位相を表わす。また、前記（２）式
は、以下の（３）の条件を満足する。

【数３】

【００２１】また、このデジタル信号は周波数領域にお
いて各ω_lにおける線スペクトルで表わすこともでき
る。なお、前記音声信号位相情報処理装置は、必要に応
じて音声信号を相異なる周波数を有する周期信号の離散
的な合計に変換する変換部（図示せず）をさらに具備す
ることが可能である。

【００２２】まず、臨界帯域幅計算部１００で、人間の
聴覚フィルタの帯域幅特性に応じて前記聴覚フィルタに
該当するチャンネルの臨界帯域幅を求める（ステップ２
０２）。人間の聴覚フィルタの帯域幅特性としては、例
えば、ＥＲＢ（ＥｑｕｉｖａｌｎｅｎｔＲｅｃｔａｎ
ｇｕｌａｒＢａｎｄｗｉｄｔｈ）またはバーク・スケ
ール（ＢａｒｋＳｃａｌｅ）が適用可能である。

【００２３】つぎに、周波数範囲設定部１０２で、前記
臨界帯域幅に所定のスケーリング係数αを掛けて修正さ
れた臨界帯域幅を求める（ステップ２０４）。また、周
波数範囲設定部１０２で、前記修正された臨界帯域幅を
使用して局所的な位相変化の周波数範囲ω_l,UB及びω
_l,LBを設定する（ステップ２０６）。この実施の形態に
おいてはスケーリング係数αを１とし、また周波数範囲
ω_l,UB及びω_l,LBは修正された臨界帯域幅と等しい幅を
有するように構成している。なお、このスケーリング係
数αは予め聴覚実験を行うことによって適宜に調整する
ことができるが、１よりも小さいことが好ましい。ま
た、周波数範囲ω_l,UB及びω_l,LBも前記と同様の聴覚実
験によってある程度調整することが可能である。

【００２４】さらに、周波数範囲設定部１０２で、周波
数ω_lを範囲の上限値とし且つ以下の（３）の条件を満
足するチャンネルの周波数集合をＣ（ω_l，１）として
設定し、周波数ω_lを範囲の下限値とし且つ以下の
（４）の条件を満足するチャンネルの周波数集合をＣ
（ω_l，２）として設定する（ステップ２０８）。

【数３】

【数４】

【００２５】そして、位相重要度判別部１０４で、周波
数ω_lに対して、以下の（５）の条件を満足するかどう
かを判別する（ステップ２２０）。

【数５】

【００２６】すなわち、位相重要度判別部１０４は、前
記（５）の条件を満足する場合には周波数ω_lの位相θ_l
を聴覚特性からみて重要ではない位相であると決定（ス
テップ２２２）し、前記（５）の条件を満足しない場合
には周波数ω_lの位相θ_lを聴覚特性からみて重要な位相
であると決定する（ステップ２２４）。すなわち、前記
（５）の条件を満足する周波数ω_lの位相θ_lは聴覚特性
からみて重要ではない位相であると決定される。このよ
うにして、位相重要度判別部１０４は周波数ω _lに対し
て前記（５）の条件を満足するかどうかを判別し、この
条件を満足する場合には周波数ω_lの位相θ_lが聴覚特性
からみて重要ではない位相であることを表示する一方、
この条件を満足しない場合には周波数ω_lの位相θ_lが聴
覚特性からみて重要な位相であることを表示する重要度
データを出力する。

【００２７】また、位相重要度判別部１０４では、変数
ｌがＬに到達したかどうかをチェックして（ステップ２
２６）、ｌがＬに到達したならば、判別作業を終了す
る。一方、ｌがＬに到達していない場合には、ｌを１だ
けインクリメントして前記ステップ２２０に戻し（ステ
ップ２２８）、ステップ２２０、ステップ２２２または
ステップ２２４、ステップ２２６の動作を順次繰り返
す。このようにして、全ての周波数成分の位相に対して
判別作業が行われる。

【００２８】図３（Ａ）及び図３（Ｂ）は、位相重要度
の判別過程を説明するための図面である。ここで、図３
（Ａ）は前記（５）の条件を満足している場合を示し、
図３（Ｂ）は前記（５）の条件を満足していない場合を
示す。

【００２９】図３（Ａ）を参照すると、周波数ω_lは前
記（５）の条件を満足していることが分かる。このよう
に前記（５）の条件を満足させる周波数ω_lは、１チャ
ンネル内にもっぱらその周波数成分の１つしか存在しな
い。従って、その位相θ_lに任意の位相値を適用して合
成したりコーディングしたりしても１チャンネル内の相
対的な位相関係が充分に維持されるため、このことが他
のチャンネルに大きな影響を及ぼすことはない。その結
果、元の信号とは異なる位相を有する信号が適用されて
も、聴覚上の違いを認知することが極めて難しくなる。

【００３０】一方、図３（Ｂ）を参照すると、周波数ω
_lは前記（５）の条件を満足していないことが分かる。
このように前記（５）の条件を満足しないω_lは、１チ
ャンネル内に他の周波数成分のものが複数混在してい
る。このような周波数成分の混在によって生じる周波数
の位相変化は、チャンネル内の相対的な位相関係の変化
を招く。従って、ある程度以上の位相の変移は聴覚的に
認知することができる。その結果、例えば、該当の周波
数に任意の位相を適用して合成すると位相の変移を聴覚
的に認知できるようになる。

【００３１】図４は、本発明に係る音声信号位相情報処
理装置で実行される音声信号位相情報処理方法におい
て、高調波信号に対する一例の位相重要度判別過程を説
明するためのグラフである。図４中、横軸はＨｚ単位の
高調波信号の周波数に該当し、縦軸は振幅の大きさで表
されるスペクトルサイズに該当する。図４を参照する
と、周波数が増加するにつれてスペクトルサイズも増大
し、周波数が１００Ｈｚないし６００Ｈｚの範囲で位相
が重要ではないと認識され、また周波数が７００Ｈｚな
いし１０００Ｈｚの範囲で位相が重要である認識されて
いることが分かる。

【００３２】一般に、人間の聴覚は、その特性から周波
数が高いほど臨界帯域幅は広くなる。従って、１００Ｈ
ｚないし６００Ｈｚの周波数に該当する周波数成分は相
異なる２つの臨界帯域幅内に含まれない。従って、この
ような周波数の位相は、図３（Ａ）を参照して説明した
ように、人間の聴覚の特性上重要ではない。その反面、
７００Ｈｚないし１０００Ｈｚの周波数に該当する周波
数成分は相異なる２つの臨界帯域幅内に含まれる。従っ
て、このような周波数の位相変化は、図３（Ｂ）を参照
して説明したように、人間の聴覚によって認知すること
ができる。

【００３３】このような音声信号位相情報処理装置及び
その方法は、音声コーディングに応用することができ
る。すなわち、コーディング時には聴覚からみて重要な
位相成分のみをコーディングまたは合成し、デコーディ
ング時にコーディングされていない、すなわち、聴覚特
性からみて重要ではない位相成分は任意の値を適用して
合成しても聴覚特性からみてほとんど差が認知すること
ができない。従って、本発明に係る音声信号位相情報処
理装置及びその方法を適用して位相成分を伝送または合
成することにより音質の向上を図ることができ、必要な
位相情報量を減らすことが可能である。

【００３４】図５は、ＮＡＴＣ（ＮＴＴＡｄｖａｎｃ
ｅｄＴｅｃｈｎｏｌｏｇｙＣｏｒｐｏｒａｔｉｏ
ｎ；登録商標）データベースの女性話者の音声波形を示
す図である。また、図６は、この図５で示されるような
音声に対して本発明の方法、及び従来の方法を適用した
場合に、時間による伝送すべき位相成分の個数をそれぞ
れ比較して図示したものである。

【００３５】図６において、従来の方法を適用した場合
の時間による伝送すべき位相成分の個数を実線にて示
し、本発明の方法を適用した場合の時間による伝送すべ
き位相成分の個数を点線にて示してある。図６を参照す
ると、本発明の方法を適用した場合には、低周波数の一
定領域で聴覚チャンネル内に１つのみ存在する周波数成
分が存在することになり、この成分は伝送する必然性が
ない。従って、伝送すべき位相成分の個数が減少するこ
ととなる。一方、伝送されない位相成分は連続的な位相
変化条件に基づいて任意に合成されることとなる。な
お、本発明者等が別途行ったＥＲＢ（Ｅｑｕｉｖａｌｎ
ｅｎｔＲｅｃｔａｎｇｕｌａｒＢａｎｄｗｉｄｔ
ｈ）実験の結果より、聴覚チャンネルの幅は実線にて示
された位相成分がすべて伝送され、また伝送された位相
成分を使用して合成された音声と点線にて示され位相成
分のみを伝送して合成した音声とは聴覚認知からみて特
に差が生じないことが明らかとなっている。

【００３６】また、図７は、本発明を適用することによ
って減少した位相成分の個数を百分率換算して示す図で
ある。図７に示す通り、本発明によって音声信号の伝送
すべき位相成分の個数が著しく減少していることが分か
る。なお、この本発明の実施の形態では、本発明の望ま
しい形態を用いて説明したが、本発明はこの形態に限定
されるものではなく、本発明の技術的思想に基づく限り
において適宜に変更することが可能である。

【００３７】

【発明の効果】以上説明した通り、本発明に係る音声信
号位相情報処理装置及びその方法によれば、音声信号の
うち聴覚認知からみて重要な位相成分のみを適切に判別
することができる。

【００３８】さらに、本発明に係る音声信号位相情報処
理装置及びその方法を音声コーディング方式に適用すれ
ば、音声信号のうち聴覚認知からみて重要な位相成分の
みを選択的にコーディングできることから、位相情報を
コーディングしない方法に比べて良好な音質が確保で
き、位相情報をすべてコーディングする方法に比べて情
報量を適切に減少させることができる。そして、本発明
は以上説明した音声信号位相情報処理に限定されるもの
ではなく、音声合成及び音声伝送の分野全般における当
業者によって本発明の技術的思想が理解されて本発明が
適用される限りにおいて、前記した効果と同様の効果を
奏することが可能である。

【図面の簡単な説明】

【図１】本発明に係る音声信号位相情報処理装置の一例
のブロック構成図である。

【図２】本発明に係る音声信号位相情報処理方法の一例
のフローチャートである。

【図３】（Ａ）及び（Ｂ）はそれぞれ本発明に係る音声
信号位相情報処理装置で実行される一例及び他の例の位
相重要度判別過程を説明するための図面である。

【図４】本発明に係る音声信号位相情報処理装置で実行
される音声信号位相情報処理方法において、高調波信号
に対する一例の位相重要度判別過程を説明するためのグ
ラフである。

【図５】ＮＡＴＣ（ＮＴＴＡｄｖａｎｃｅｄＴｅｃ
ｈｎｏｌｏｇｙＣｏｒｐｏｒａｔｉｏｎ：登録商標）
データベースの女性話者の音声波形を示す図である。

【図６】図５で示される音声に対して本発明を適用した
場合の位相伝送量の減少効果を伝送すべき位相成分の個
数から説明するためのグラフである。

【図７】図５で示される音声に対して本発明を適用した
場合の位相伝送量の減少効果を伝送すべき位相成分の個
数の減少率から説明するためのグラフである。

【符号の説明】

１００臨界帯域幅計算部１０２周波数範囲設定部１０４位相重要度判別部

Claims

【特許請求の範囲】

【請求項１】相異なる周波数成分を有する周期信号の
離散的な合計で表わされるデジタル音声の位相成分を処
理する装置において、人間の聴覚フィルタの帯域幅特性に応じて周波数別に臨
界帯域幅を求める臨界帯域幅計算部と、前記臨界帯域幅に所定のスケーリング係数を掛けて修正
された臨界帯域幅を使用して局所的な位相変化の周波数
範囲を設定する周波数範囲設定部と、周波数別に前記周波数に隣接した周波数成分が前記周波
数に該当する前記周波数範囲に属するかどうかをチェッ
クして、前記周波数成分を有する信号の位相が聴覚特性
からみて重要であるかどうかを判別する位相重要度判別
部と、を含むことを特徴とする音声信号位相情報処理装
置。
【請求項２】音声信号を相異なる周波数成分を有する
周期信号の離散的な合計に変換する音声信号変換部をさ
らに含むことを特徴とする請求項１に記載の音声信号位
相情報処理装置。
【請求項３】前記スケーリング係数は、１よりも小さ
いことを特徴とする請求項１に記載の音声信号位相情報
処理装置。
【請求項４】前記位相重要度判別部は、聴覚特性から
みて重要な位相に該当する周波数の集合を求めることを
特徴とする請求項１に記載の音声信号位相情報処理装
置。
【請求項５】音声信号の位相成分を処理する装置にお
いて、Ｌを１よりも大きい所定の正の数とし、Ａ_l、ω_l及びθ
_lをそれぞれｌ番目の周期信号の振幅、周波数及び位相
とし、且つ以下の（１）が成り立つ場合に、音声信号を
以下の（２）式に変換する音声信号変換部と、人間の聴覚フィルタの帯域幅特性に応じて周波数別に臨
界帯域幅を求める臨界帯域幅計算部と、前記臨界帯域幅に所定のスケーリング係数を掛けて修正
された臨界帯域幅ω_k, _UB及びω_k,LBを求め、周波数ω_l
を範囲の上限値とし且つ以下の（３）の条件を満足する
チャンネルの周波数集合をＣ（ω_l，１）と設定し、周
波数ω_lを範囲の下限値とし且つ以下の（４）の条件を
満足するチャンネルの周波数集合をＣ（ω _l，２）と設
定する周波数範囲設定部と、周波数ω_lに対し以下の（５）の条件を満足するかどう
かを判別して、（５）の条件を満足する場合には周波数
ω_lの位相θ_lが聴覚特性からみて重要ではない位相であ
ることを示し、且つ（５）の条件を満足しない場合に
は、周波数ω_lの位相θ_lが聴覚特性からみて重要な位相
であることを示す重要度データを出力する位相重要度判
別部と、を含むことを特徴とする音声信号位相情報処理
装置。【数１】【数２】【数３】【数４】【数５】
【請求項６】音声信号の位相成分を処理する方法にお
いて、（ａ）音声信号を相異なる周波数成分を有する周期信号
の離散的な合計で表わすステップと、（ｂ）人間の聴覚フィルタの帯域幅特性に応じて周波数
別に臨界帯域幅を求めるステップと、（ｃ）前記臨界帯域幅に所定のスケーリング係数を掛け
て修正された臨界帯域幅を求めるステップと、（ｄ）前記ステップ（ｃ）で修正された臨界帯域幅を使
用して局所的な位相変化の周波数範囲を設定するステッ
プと、（ｅ）周波数別に前記周波数に隣接した周波数成分が前
記周波数に該当する前記周波数範囲に属するかどうかを
チェックして、前記周波数成分を有する信号の位相が聴
覚特性からみて重要であるかどうかを判別するステップ
と、を含むことを特徴とする音声信号位相情報処理方
法。
【請求項７】前記スケーリング係数は、１よりも小さ
いことを特徴とする請求項６に記載の音声信号位相情報
処理方法。
【請求項８】音声信号の位相成分を処理する方法にお
いて、（ａ）Ｌを１よりも大きい所定の正の数とし、Ａ_l、ω_l
及びθ_lをそれぞれｌ番目の周期信号の振幅、周波数及
び位相とし、且つ前記（１）が成り立つ場合に、音声信
号を前記（２）式で表わすステップと、（ｂ）人間の聴覚フィルタの帯域幅特性に応じて周波数
別に臨界帯域幅を求めるステップと、（ｃ）前記臨界帯域幅に所定のスケーリング係数を掛け
て修正された臨界帯域幅ω_k,UB及びω_k,LBを求めるステ
ップと、（ｄ−１）周波数ω_lを範囲の上限値とし且つ前記
（３）の条件を満足するチャンネルの周波数集合をＣ
（ω_l，１）と設定するステップと、（ｄ−２）周波数ω_lを範囲の下限値とし且つ前記
（４）の条件を満足するチャンネルの周波数集合をＣ
（ω_l，２）と設定するステップと、（ｅ）周波数ω_lに対し前記（５）の条件を満足するか
どうかを判別するステップと、（ｅ−１）前記ステップ（ｅ）において、前記条件を満
足する場合には、周波数ω_lの位相を聴覚特性からみて
重要ではない位相であると決定するステップと、（ｅ−２）前記ステップ（ｅ）において、前記条件を満
足しない場合には、周波数の位相を聴覚特性からみて重
要な位相であると決定するステップと、（ｆ）ｌがＬである場合には終了し、ｌがＬでない場合
にはｌを１だけインクリメントしてステップ（ｅ）に戻
るステップと、を含むことを特徴とする音声信号位相情
報処理方法。