JP2004508596A

JP2004508596A - 出力ベースの客観的音声品質評価方法及び装置

Info

Publication number: JP2004508596A
Application number: JP2002525646A
Authority: JP
Inventors: ビーレンズ，ジョン　ジェラルド; ヘクストラ，アンドリエス　ピーター
Original assignee: コニンクリジケ　ケーピーエヌ　エヌブィー
Priority date: 2000-09-06
Filing date: 2001-09-03
Publication date: 2004-03-18
Also published as: DE60122751T2; AU2002213876A1; EP1317752B1; ES2271084T3; DK1317752T3; US20030171922A1; US7024352B2; EP1317752A1; EP1187100A1; ATE338331T1; DE60122751D1; WO2002021514A1

Abstract

音声情報部分を含む劣化出力音声信号が、出力音声信号から取り出された参照信号と比較（５）される出力ベースの客観的音声品質の評価方法及び装置。参照信号は、有限のビット伝送速度の参照音声信号を生成する音声リコーダ（２）を使用して、出力音声信号の音声情報部分の知覚近似により与えられる。好適な実施形態において、音声リコーダ（２）は、音声コーデックである。

Description

【０００１】
【技術分野】
本発明は、一般的に、音声品質評価に関し、さらに詳しく言えば、人間の聞き手を関与させることなく、無線通信システムで受信される出力信号及びボイス・オーバー・インターネット・プロトコル（ＶｏＩＰ：Ｖｏｉｃｅ　ｏｖｅｒ　Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ）に従って伝送される音声信号などの出力信号の音声品質を客観的に評価するための方法及び装置に関する。
【０００２】
【背景技術】
音声品質評価により、音声符号化伝送アルゴリズム及び機器の制御及びデザインが最適化される。
【０００３】
例えば、平均オピニオン評点（ＭＯＳ：Ｍｅａｎ　Ｏｐｉｎｉｏｎ　Ｓｃｏｒｅ）や診断受入基準（ＤＡＭ：Ｄｉａｇｎｏｓｔｉｃ　Ａｃｃｅｐｔａｂｉｌｉｔｙ　Ｍｅａｓｕｒｅ）などの人間の聞き手の評価手法を伴う音声品質の評価方法により、客観的な品質基準が得られる。
【０００４】
このタイプの音声品質評価は、非常にコストがかかり、適切な施設や試験機器及び条件を必要とする。
【０００５】
人間の聞き手を関与させないために、数式を用いて客観的音声品質の推定または予測を試みる客観的音声測定法がこれまで提案されてきた。
【０００６】
典型的に、客観的音声品質評価方法は、明瞭で歪みのない元の入力音声信号と劣化した出力音声信号とを比較することに基づく。しかしながら、実際のところ、明瞭な元の入力信号は、一般に、被試験システムまたは装置の出力で入手不能である。
【０００７】
国際特許出願第ＷＯ−Ａ−９６／０６４９５号には、例えば、明瞭な歪みのない入力信号を必要とせずに、通信リンクによりどのように出力信号が修正されたり歪ませられたりしたかを決定するために、不特定話者の音声の一定の統計的な特徴を解析することが提案されている。
【０００８】
同じ目的で、国際特許出願第ＷＯ−Ａ−９６／０６４９６号には、音声認識器により受信信号の内容を解析することが開示されている。この解析結果は、歪みのない音声信号を発生するための音声合成器により処理される。
【０００９】
国際特許出願第ＷＯ−Ａ−９７／０５７３０号には、声道解析を用いた音声品質測定と、明瞭な入力信号のレプリカとして参照信号を発生するニューラルネットワークとが開示されている。
【００１０】
その音声品質を解析するために、音声を認識し、音声を合成し、劣化信号の話者の声及び他の特性へ合成信号を適応させることで、劣化した音声信号と比較するために参照信号を与えることは、実際のところ、限られた精度で計算集約型のタスクを含む。
【００１１】
しかしながら、元の入力音声信号に等しい参照信号を劣化音声信号から復元することは不可能である。
【００１２】
さらに、評価された品質が所定レベルより低ければ、音声品質を高めるように制御するための適時のフィードバックを妨げる遅延がある参照信号となる。
【００１３】
【発明の要約】
本発明の目的は、出力ベースの客観的音声品質を評価するさいの計算集約型タスク及びそれにより生じる固有の遅延を回避することである。
【００１４】
本発明により、音声情報部分を含む劣化出力音声信号が、出力音声信号から取り出された参照信号と比較される出力ベースの客観的音声品質の評価方法であって、参照信号は、１秒当たりのビット有限数、すなわちビット伝送速度を与える有限エントロピーの参照音声信号を生成する音声リコーダを使用して、出力音声信号の音声情報部分の知覚近似により与えられる新規の方法が提供される。
【００１５】
本発明は、有限ビット伝送速度で知覚近似を実行する音声リコーダを使用して歪み音声信号を処理することにより、劣化出力音声信号の音声情報部分が、音声リコーダの特性に従って客観的に復元されて、音声品質を客観的に評価するための参照音声信号を与えるという洞察に基づいたものである。
【００１６】
本発明による音声リコーダを使用することにより、被試験出力音声から音声パラメータなどを抽出するために、膨大なコンピュータ処理及び計算が不要になるため、不都合な遅延が導入されない。
【００１７】
音声コーデック（音声符号器／音声復号器）とは、音声信号を１秒当たりのビット有限数の信号に知覚処理する装置である。したがって、本発明による方法の好適な実施形態において、参照信号は、例えば、ＩＴＵ−Ｔ　Ｇ．７２９規格またはＥＴＳＩ　６．７１規格に準拠したコーデックなどの参照音声コーデック（リコーダ）を使用して、劣化出力音声信号を再符号化することにより与えられる。
【００１８】
リコーダは、（理想的には）、明瞭な歪みのない音声信号に対して本質的に透過性のものであり、ひずみのある音声信号に対して、音声信号の歪みの大きさの程度に応じて本質的に非透過性のものでなければならない。
【００１９】
すなわち、例えば、劣化信号が不快な量のバックグラウンドノイズを含めば、リコーダは、例えば、バックグラウンドノイズを抑制することにより、信号を「歪ませ」たり、ノイズによるビット消費により、出力音声信号を「劣化」させなければならない。被試験音声伝送システムが透過性のものである場合、客観的品質測定は、このような透過性も予測しなければならず、これは、明瞭な音声信号に対してほぼ透過性のものであるリコーダにより達成される。
【００２０】
上記に略述した従来技術の方法と比較すると、本発明は、非常に実用性の高いアプローチをとっており、劣化出力音声信号の音声情報部分から参照音声信号を引き出すことに焦点を当て、この劣化出力音声信号は、劣化音声信号の歪みの程度の大きさである劣化音声信号からの知覚距離を有する。
【００２１】
したがって、本発明による方法のさらなる実施形態において、参照信号と劣化出力音声信号の比較は、出力音声信号と参照信号との間の知覚距離の計算を含む。
【００２２】
一般的に、再符号化された音声信号の主観的音声品質の程度は、元の入力より低い。知覚距離測定値として、ＩＴＵ−Ｔ　ＳＧ１２／課題１３により標準化を求めて提出されたＩＴＵ−Ｔ　Ｐ．８６１またはＰＳＱＭ９９など、人間の聴覚の心理音響モデルが使用されてよい。知覚距離測定値は、知覚測定値をリコーダへ及び／またはその逆に適応させることにより、より高い精度で決定可能である。この代わりとして、劣化出力音声信号と参照音声信号との間の知覚距離は、出力音声信号の大きく歪んだ部分をフィルタリングして除去することにより、または、予測された品質が非常に低いか非常に高い場合に、出力音声信号にある大きな歪みを取り除くことにより、減少または増大されてよい。出力音声信号及び参照音声信号の平均値の処理は、これらの信号の間の知覚距離を減少させるために使用されてよい。
【００２３】
実際のところ、出力音声信号は、その一部分または複数部分が消失され、すなわち、信号の振幅が、例えば、ゼロまたはほぼゼロまで減少されるという点で劣化されることがある。リコーダが劣化音声に対して透過性のものである場合、生成される参照音声信号は、消失した出力音声も同様に反映するため、出力音声信号と参照音声信号との比較により、目標とする品質測定値が得られないことを認識されたい。
【００２４】
本発明による方法のさらなる実施形態において、この問題は、いわゆる、出力音声信号に特有のマクロ特性が取り出され、これらのマクロ特性が参照音声信号に課せられることで解消される。
【００２５】
当業者により認識されるように、音声は、例えば、数十ミリ秒の間隔にわたって、瞬間的なエネルギーレベル及び音の一定の周期性を含む。一般的に、音声信号は、多数のいわゆるマクロ特性、すなわち、無音、バックグラウンドノイズ、周期性、元の振幅の急激な減少などにより特徴付けられる。これらのマクロ特性を出力音声信号から抽出し、それを参照信号に課すことにより、例えば、消失するか、音声信号のマクロ特性を乱した出力音声信号の一部分または複数部分が、参照信号において補償され得る。したがって、出力音声信号と参照信号とを引き続き比較することにより、マクロ特性を乱した一部分または複数部分による出力音声信号の劣化量を反映した品質測定値が得られることになる。
【００２６】
出力音声信号から抽出されたマクロ特性は、本発明による方法のさらなる実施形態において、音声リコーダによる知覚近似の前に、出力音声信号に課せられてよい。本発明のさらなる実施形態において、マクロ特性は、音声リコーダによる知覚近似中に出力音声信号に課せられる。すなわち、参照音声コーデックをリコーダとして使用する間、マクロ特性は、出力音声信号を符号化した後及び参照コーデックによりそれを復号化する前に重畳されてよい。本発明のさらなる実施形態において、マクロ特性は、知覚近似後に出力音声信号に重畳され、すなわち、生成された参照音声信号に直接重畳される。さらに、マクロ特性は、劣化出力音声信号から生成された参照音声信号と比較するために、劣化出力音声信号に適用されることが好ましい場合がある。
【００２７】
本発明の単純な実施形態において、音声信号のマクロ特性に対する乱れは、同様の歪みまたは乱れを参照音声信号に組み込むことにより補償されて、同じものが品質測定値に反映される。
【００２８】
出力音声信号の知覚近似は、時間及び／または周波数ドメインに与えられてよい。後者の場合、本発明によれば、出力音声信号は、時間・周波数ドメイン変換を受け、参照音声信号は、変換された出力音声信号から取り出される。
【００２９】
さらに、本発明によれば、上述した方法により、出力ベースの客観的音声の評価装置が提供される。
【００３０】
本発明による方法及び装置は、ＶｏＩＰや無線ＩＰ通信ネットワークなどのＩＰ（インターネットプロトコル）ベースの通信ネットワークにおいて、出力音声信号の音声品質を評価するのに特に適しており、評価された音声品質は、ネットワークの音声及び伝送品質の実時間制御及び適応に使用されてよい。
【００３１】
以下の記載において、添付の図面を参照しながら、本発明の上記及び他の特徴及び利点を説明する。
【００３２】
【実施形態の詳細な説明】
図１に、ＩＰ（インターネットプロトコル）固定または無線通信システムなどの被試験システムが、参照符号１により概して示されている。システム１は、コーデック３として概して示された音声符号・復号手段を含む。
【００３３】
例えば、無線、有線またはＶｏＩＰ（ボイス・オーバー・インターネット・プロトコル）による音声伝送システムの電話端末に話者により与えられる元の入力音声信号が、システム１を介して伝送され、システム１の別の電話端末で劣化出力音声として受信される。劣化出力音声信号は、声または音声情報部分と、ノイズまたは歪み部分とを含む。
【００３４】
出力音声信号の主観的品質の基準が、人間の被検者４を伴う公知の平均オピニオン評点（ＭＯＳ）などの人間の聞き手の評価手法から得られる。
【００３５】
被試験システム１により与えられる出力音声信号の音声品質の客観的基準が、客観的ＭＯＳとして例示的に参照された人間の被検者をモデリングしたコンピュータモデル５から引き出される。コンピュータモデル５は、劣化出力音声信号を表すデータと、元の入力音声信号を表すデータの両方を必要とする。
【００３６】
しかしながら、本発明の目的である出力ベースの客観的音声品質評価において、元の入力音声信号を表すデータは入手できない。したがって、劣化出力音声信号と比較するために、参照データが生成されなければならない。
【００３７】
本発明によれば、音声リコーダ２を使用して劣化出力音声信号を処理することにより、参照音声信号が生成される。音声リコーダ２は、有限ビット伝送速度の参照音声信号の形をした出力音声信号の音声情報部分の知覚近似を与える。
【００３８】
図２は、本発明による客観的音声品質測定装置の実際的なセットアップを示し、音声リコーダは、特性が明瞭な音声信号に対して本質的に透過性のものであり、歪みのある音声信号に対して、入力音声信号の歪みの大きさの程度に応じて本質的に不透過性のものである参照音声コーデック６である。
【００３９】
コーデック６は、バックグラウンドノイズ、クリック及び他の歪みが、出力される再符号化信号に現れないように、入力で音声信号を「歪ませ」、または「劣化させる」。すなわち、リコーダ６により再符号化された被試験システム１の劣化出力音声信号により、元の明瞭な入力音声信号の音声情報部分を表す参照音声信号が得られる。
【００４０】
参照音声信号を受信した劣化出力音声信号と比較することにより、知覚品質測定手段７を使用して、品質測定値が与えられて、ＭＯＳの予測が得られる。
【００４１】
参照音声コーデック６は、例えば、ＩＴＵ−Ｔ　Ｇ．７２９またはＥＴＳＩ　６．７１規格に準拠したコーデックなどの任意の適切なタイプのものであってよい。
【００４２】
知覚品質測定値として、ＩＴＵ−Ｔ　Ｐ．８６１またはＰＳＱＭ９９など、人間の聴覚の心理音響モデルが使用されてよく、再符号化された参照音声信号と劣化出力音声信号との間の知覚距離測定値を計算する。
【００４３】
音声リコーダ２、すなわち、コーデック６が、従来技術の方法の固有の時間遅延を回避すると同時に、話者の音声を表すパラメータ及び他のデータを抽出するための計算集約型タスクを必要とせずに、参照音声信号を生成可能であることは、当業者により認識されるであろう。
【００４４】
参照信号及びそれらの比較を与えるために劣化出力音声信号の処理または近似が、時間／周波数ドメインの両方に与えられてよい。後者の場合、図２に破線で示されているように、劣化出力音声信号は、時間周波数ドメイン変換（ＴＦＤＴ：Ｔｉｍｅ　Ｆｒｅｑｕｅｎｃｙ　Ｄｏｍａｉｎ　Ｔｒａｎｓｆｏｒｍａｔｉｏｎ）１１を受ける。
【００４５】
図３は、例えば、劣化出力音声の一部分または複数部分が消失、すなわち、信号の振幅がゼロまたはほぼゼロになった場合、ＭＯＳ予測値を補償する本発明の実施形態を示す。これは、例えば、オリジナルの入力音声信号が被試験システム１により一時的に消音される場合である。
【００４６】
自然な無音、周期性、急激な振幅減少、バックグラウンドノイズなど、出力音声信号の声の程度を表す出力音声信号からマクロ特性を取り出すための手段８が作動的に接続される。マクロ特性は、手段８により劣化出力音声信号に課された後、音声リコーダ２または音声コーデック６によりそれを処理し、後者は、図３において、音声符号器９と後続の音声復号器１０に分離されている。
【００４７】
マクロ特性を抽出し課すための手段８は、図４に示されているように、音声リコーダ２とともに動作してもよく、手段８は、音声符号器９と音声復号器１０との間に作動的に接続される。
【００４８】
図５は、音声符号器９及び音声復号器１０により与えられる再符号化された参照音声信号で手段８が作動する本発明の別の実施形態を示す。
【００４９】
図６は、劣化出力音声から得られた再符号化音声を、マクロ特性が課された劣化出力音声と比較するための手段７の前に作動的に接続された手段８を示す。
【００５０】
本発明の単純な実施形態において、音声信号のマクロ特性に対する乱れは、同様の歪みまたは乱れを参照音声信号に組み込むことにより補償されて、同じものが品質測定値に反映される（図示せず）。
【００５１】
与えられるＭＯＳ予測は、特に、ＩＰ有線または無線データ通信ネットワークなどの通信ネットワークにおいて、音声品質及び／または伝送品質を制御するために使用可能である。
【００５２】
実験的なセットアップから、出力ベースの客観的音声品質評価の従来の方法より、複雑性が著しく減り、アプローチの操作性が大幅に高められた高信頼性の出力ベース客観的音声品質評価が提供されることが確証された。
【図面の簡単な説明】
【図１】
図１は本発明による出力ベースの客観的音声品質評価の原理を示した略図である。
【図２】
図２は本発明による出力ベースの客観的音声品質の評価装置の一般的なブロック図である。
【図３】
図３は本発明による装置の実施形態のブロック図である。
【図４】
図４は本発明による装置の実施形態のブロック図である。
【図５】
図５は本発明による装置の実施形態のブロック図である。
【図６】
図６は本発明による装置の実施形態のブロック図である。

Claims

音声情報部分を含む劣化出力音声信号が、前記出力音声信号から取り出された参照信号と比較される出力ベースの客観的音声品質の評価方法であって、前記参照信号は、有限のビット伝送速度の参照音声信号を生成する音声リコーダを使用して、前記出力音声信号の前記音声情報部分の知覚近似により与えられる方法。
前記参照音声信号は、音声リコーダなどの参照音声コーデックを使用して前記出力音声信号を再符号化することにより与えられる請求項１に記載の方法。
前記リコーダのタイプは、明瞭な歪みのない音声信号に対して本質的に透過性のものであり、歪みのある音声信号に対して、前記音声信号の歪みの大きさの程度に応じて、本質的に非透過性のものである請求項１または２に記載の方法。
前記出力音声信号を表すマクロ特性が取り出され、前記マクロ特性は、前記参照音声信号に課される請求項１から３のいずれか一項に記載の方法。
前記マクロ特性は、前記知覚近似の前に前記出力音声信号に課される請求項４に記載の方法。
前記マクロ特性は、前記知覚近似中に前記出力音声信号に課される請求項４に記載の方法。
前記マクロ特性は、前記知覚近似後に前記出力音声信号に課される請求項４に記載の方法。
前記出力音声信号を表すマクロ特性が取り出され、前記マクロ特性は、前記比較の前に前記出力音声信号に課される請求項１から３のいずれか一項に記載の方法。
前記比較は、前記出力音声信号と前記参照信号との間の知覚距離の計算を含む請求項１から８のいずれか一項に記載の方法。
前記出力音声信号は、時間／周波数ドメイン変換を受け、前記参照音声信号は、前記変換された出力音声信号から取り出される請求項１から９のいずれか一項に記載の方法。
音声情報を含む劣化出力音声信号から参照信号を取り出すために作動的に接続された取り出し手段と、前記出力音声信号を前記参照信号と比較するために作動的に接続された比較器とを含む出力ベースの客観的音声品質の評価のための装置であって、前記取り出し手段は、有限ビット伝送速度の参照音声信号を生成する音声リコーダを使用して、前記出力音声信号の前記音声情報部分を知覚近似するために作動的に接続された処理手段を含む装置。
前記取り出し手段は、前記出力音声信号の再符号化により、前記参照音声信号を与えるための音声リコーダとして参照音声コーデックを含む請求項１１に記載の装置。
前記音声リコーダのタイプは、明瞭な歪みのない音声信号に対して本質的に透過性のものであり、歪みのある音声信号に対して、前記音声信号の歪みの大きさの程度に応じて、本質的に非透過性のものである請求項１１または２１に記載の方法。
前記出力音声信号を表すマクロ特性を取り出すために作動的に接続された手段と、前記マクロ特性を前記参照信号に課すための重畳手段とを含む請求項１１から１３のいずれか一項に記載の装置。
前記重畳手段は、前記知覚近似の前に前記マクロ特性を前記出力音声信号に課すために作動的に接続された請求項１４に記載の装置。
前記重畳手段は、前記出力信号を知覚近似するために作動する前記処理手段を介して、前記マクロ特性を前記出力音声信号に課すために作動的に接続される請求項１４に記載の装置。
前記重畳手段は、前記知覚近似後に前記マクロ特性を前記出力音声信号に課すために作動的に接続された請求項１４に記載の装置。
前記重畳手段は、比較前に前記マクロ特性を前記出力音声信号に課すために作動的に接続された請求項１４に記載の装置。
前記比較手段は、前記出力音声信号と前記参照信号との間の知覚距離を計算するために作動的に接続された請求項１１から１８のいずれか一項に記載の装置。
前記出力音声信号の時間／周波数ドメイン変換を行うための変換手段を含み、前記取り出し手段は、前記変換された出力音声信号から前記参照音声信号を取り出すために作動的に接続される請求項１１から１９のいずれか一項に記載の装置。
ＩＰ（インターネットプロトコル）ベースの通信ネットワークにおいて、出力音声信号の音声品質を評価するための請求項１から２０のいずれか一項に記載の方法及び装置の使用。
前記通信ネットワークが、無線ＩＰ通信ネットワークである請求項２１に記載の方法及び装置の使用。
前記通信ネットワークにおいて音声品質を制御するための請求項２１または２２に記載の方法及び装置の使用。