JP4989021B2 - 客観的なスピーチ品質評価において時間/言語歪みを反映する方法 - Google Patents

客観的なスピーチ品質評価において時間/言語歪みを反映する方法 Download PDF

Info

Publication number
JP4989021B2
JP4989021B2 JP2004187432A JP2004187432A JP4989021B2 JP 4989021 B2 JP4989021 B2 JP 4989021B2 JP 2004187432 A JP2004187432 A JP 2004187432A JP 2004187432 A JP2004187432 A JP 2004187432A JP 4989021 B2 JP4989021 B2 JP 4989021B2
Authority
JP
Japan
Prior art keywords
speech
objective
frame
speech quality
quality assessment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004187432A
Other languages
English (en)
Other versions
JP2005018076A (ja
Inventor
キム ドー−スク
Original Assignee
アルカテル−ルーセント ユーエスエー インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルカテル−ルーセント ユーエスエー インコーポレーテッド filed Critical アルカテル−ルーセント ユーエスエー インコーポレーテッド
Publication of JP2005018076A publication Critical patent/JP2005018076A/ja
Application granted granted Critical
Publication of JP4989021B2 publication Critical patent/JP4989021B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は概して、コミュニケーション・システム、特に、スピーチ品質評価に関する。
無線通信システムの性能は、とりわけ、スピーチ品質によって測定されることができる。現在の技術では、2つのスピーチ品質評価技法が存在する。第1の技法は、主観的な技法である(以降では、「主観的なスピーチ品質評価」と呼ぶ)。主観的なスピーチ品質評価において、通常、人の聴取者を用いて、処理されたスピーチのスピーチ品質が評価される。そこでは、処理されたスピーチは、受け手側で処理された送信されたスピーチ信号である。この技法は主観的である。なぜなら、この技法は、個々の人の認識に基づいているからであり、母国語を話す人、すなわち、提示されている、すなわち、聞き取られているスピーチ素材の言語を話す人々による、スピーチ品質の人による評価は通常、言語効果を考慮する。調査が示したところでは、言語についての聴取者の知識が、主観的聴取テストにおける点数に影響を与える。スピーチの言語情報が欠けている、すなわち、無音であると、主観的聴取テストにおいて、母国語の聴取者が与える点数は、母国語でない聴取者が与える点数に比べて低かった。通常の電話の会話では、聴取者が母国語の聴取者である場合が多い。したがって、通常の状態をエミュレートするために、主観的なスピーチ品質評価について母国語の聴取者を用いるのが好ましい。主観的なスピーチ品質評価技法は、良好なスピーチ品質評価を提供するが、高価で、時間がかかる可能性がある。
第2の技法は客観的手法である(以降では、「客観的なスピーチ品質評価」と呼ぶ)。客観的なスピーチ品質評価は個々の人の認識に基づかない。客観的なスピーチ品質評価技法には、既知のソース・スピーチまたは処理されたスピーチから推定した再構成されたソース・スピーチに基づくものもある。他の客観的なスピーチ品質評価技法は、既知のソース・スピーチではなく、処理されたスピーチのみに基づく。これら後者の技法は、本明細書では、「シングルエンドの客観的なスピーチ品質評価技法」と呼ばれ、既知のソース・スピーチまたは再構成されたソース・スピーチが利用できない時に用いられる場合が多い。
しかし、現行のシングルエンドの客観的なスピーチ品質評価技法は、主観的なスピーチ品質評価技法に比べて、それほど良好なスピーチ品質評価を提供しない。現行のシングルエンドの客観的なスピーチ品質評価技法が、主観的なスピーチ品質評価技法に比べて良好でない1つの理由は、前者の技法が言語影響を考慮(account)しないためである。現行のシングルエンドの客観的なスピーチ品質評価技法は、そのスピーチ評価において言語効果を考慮することができなかった。
したがって、スピーチ評価において言語効果を考慮するシングルエンド(single-ended)の客観的なスピーチ品質評価技法に対する必要性が存在している。
本発明は、主観的なスピーチ品質評価に対する歪みの影響をモデル化することによって、スピーチ品質評価全体を支配する可能性のある歪みの影響を反映し、それによって、客観的なスピーチ品質評価において言語影響を考慮する客観的なスピーチ品質評価技法である。一実施形態において、本発明の客観的なスピーチ品質評価技法は、包絡線情報を用いてスピーチ活動の間隔における歪みを検出する工程と、上記スピーチ活動に関連する客観的スピーチ品質評価値を修正する工程であって、それによって、主観的スピーチ品質評価に対する前記歪みの影響を反映する、客観的スピーチ品質評価値を修正する工程とを含む。一実施形態において、本発明の客観的なスピーチ品質評価技法はまた、短いバースト、急な停止、および急な開始などの歪みタイプを識別し、客観的スピーチ品質評価値を修正して、主観的スピーチ品質評価に対する各歪みのタイプの種々の影響を反映するようにする。
本発明の特徴、態様、および利点は、以下の説明、添付特許請求項、および添付図面に関してよりよく理解されるであろう。
本発明は、主観的なスピーチ品質評価に対する歪みの影響をモデル化することによって、スピーチ品質評価全体を支配する可能性のある歪みの影響を反映し、それによって、客観的なスピーチ品質評価において言語影響を考慮する客観的なスピーチ品質評価技法である。
図1は、本発明の一実施形態による、言語影響を考慮する客観的なスピーチ品質評価技法を示すフローチャート100である。工程102にて、スピーチ信号s(n)を処理して、客観的なスピーチ・フレーム品質評価ν(m)、すなわち、フレームmにおける客観的なスピーチ品質が求められる。一実施形態において、各フレームmは64ms間隔に対応する。スピーチ信号s(n)を処理して、客観的なスピーチ・フレーム品質評価ν(m)(言語影響を考慮しない)を得る方法は、当技術分野ではよく知られている。こうした処理の一例は、発明者Doh−Suk Kimによって2002年7月1日に出願された「Compensation Of Utterance Dependent Articulation For Speech Quality Assessment」という名称の同時係属中の特許第10/186,862号に記載されている。
米国特許出願第10/186,862号
工程105にて、スピーチ信号s(n)は、音声活動について、たとえば、音声活動検出器(VAD)によって分析される。VADは当技術分野ではよく知られている。図2は、本発明の一実施形態による、スピーチ信号に関連する包絡線情報を調べることによって音声活動を検出するVADを説明するフローチャート200を示す。工程205において、包絡線信号γ(n)は、全ての蝸牛チャネルkについて合計され、式(1)、すなわち、
Figure 0004989021
に従って、合計した包絡線信号γ(n)が形成される。ここで、
Figure 0004989021
であり、nは時間指数であり、Nbは臨界帯域の全数を表し、s(n)は蝸牛チャネルkを通したスピーチ信号s(n)の出力、すなわち、s(n)=s(n)(n)であり、
Figure 0004989021
はs(n)のヒルベルト変換である。
工程210にて、フレーム包絡線e(l)は、式(2)、すなわち、
Figure 0004989021
に従って、合計した包絡線信号γ(n)を4msのハミング窓w(n)で乗算することによって、2msごとに計算される。ここで、γ(l)(n)は、合計した包絡線信号γ(n)の2msのl番目のフレーム信号である。フレーム包絡線e(l)およびハミング窓w(n)の持続期間は、単に説明するためのものであること、および、他の持続期間が可能であることが理解されるべきである。工程215にて、式(3)に従って、フレーム包絡線e(l)に対して下限規定(flooring)操作が適用される。
Figure 0004989021
工程220にて、式(4)、すなわち、
Figure 0004989021
に従って、下限規定されたフレーム包絡線e(l)の時間導関数Δe(l)が得られる。ここで、−3≦j≦3である。
工程225において、式(5)に従って、音声活動検出が行われる。
Figure 0004989021
工程230にて、式(5)の結果、すなわち、vad(l)が、出力の1および0の持続期間に基づいて、細分されることができる。たとえば、vad(l)内の0の持続期間が8msより短い場合、vad(l)は、その持続期間について1に変えられるであろう。同様に、vad(l)内の1の持続期間が8msより短い場合、vad(l)は、その持続期間について0に変えられるであろう。図3は、スピーチおよびスピーチでない活動の間隔TおよびGをそれぞれ説明する、例としてのVAD活動図30を示す。間隔Tに関連するスピーチ活動は、たとえば、実際のスピーチ、データ、または雑音を含む可能性があることを理解すべきである。
図1のフローチャート100に戻ると、工程110にて、スピーチ活動について、スピーチ信号s(n)を分析する時に、間隔Tを調べて、関連するスピーチ活動が、短いバーストかまたはインパルス雑音に対応するかどうかが判断される。間隔Tにおけるスピーチ活動が、短いバーストかまたはインパルス雑音であると判断される場合、工程115にて、客観的なスピーチ・フレーム品質評価ν(m)が修正されて、修正された客観的なスピーチ・フレーム品質評価
Figure 0004989021
が得られる。修正された客観的なスピーチ・フレーム品質評価
Figure 0004989021
は、主観的なスピーチ品質評価に対する短いバーストまたはインパルス雑音の影響をモデル化またはシミュレートすることによって、短いバーストまたはインパルス雑音の影響を考慮する。
工程115から、または、工程110にて、間隔Tにおけるスピーチ活動が、短いバーストかまたはインパルス雑音であると判断されない場合、フローチャート100は工程120に進み、工程120にて、間隔Tにおけるスピーチ活動が調べられて、間隔Tにおけるスピーチ活動が急な停止または無音を有するかどうかが判断される。間隔Tにおけるスピーチ活動が急な停止または無音を有すると判断される場合、工程125にて、客観的なスピーチ・フレーム品質評価ν(m)が修正されて、修正された客観的なスピーチ・フレーム品質評価
Figure 0004989021
が得られる。修正された客観的なスピーチ・フレーム品質評価
Figure 0004989021
は、主観的なスピーチ品質評価に対する急な停止または無音及びこれに続く影響をモデル化またはシミュレートすることによって、急な停止または無音の影響を考慮する。
工程125から、または、工程120にて、間隔Tにおけるスピーチ活動が、急な停止かまたは無音であると判断されない場合、フローチャート100は工程130に進み、工程130にて、間隔Tにおけるスピーチ活動が調べられて、間隔Tにおけるスピーチ活動が急な開始を有するかどうかが判断される。間隔Tにおけるスピーチ活動が急な開始を有すると判断される場合、工程135にて、客観的なスピーチ・フレーム品質評価ν(m)が修正されて、修正された客観的なスピーチ・フレーム品質評価
Figure 0004989021
が得られる。客観的なスピーチ・フレーム品質評価ν(m)は、主観的なスピーチ品質評価に対する急な開始の影響をモデル化またはシミュレートすることによって、急な開始の影響を考慮する。工程135から、または、工程130にて、間隔Tにおけるスピーチ活動が、急な開始を有すると判断されない場合、フローチャート100は工程145に進み、工程145にて、客観的なスピーチ・フレーム品質評価ν(m)に対する修正の結果がもしあれば、工程102の、元の客観的なスピーチ・フレーム品質評価ν(m)に統合される。
本発明の一実施形態に従って、客観的なスピーチ・フレーム品質評価ν(m)を修正する技法、すなわち、工程115、工程125、および工程135と共に、スピーチ活動が、短いバースト(またはインパルス雑音)であるか、あるいは、急な停止(または無音)を有するか、あるいは、急な開始を有するか、すなわち、工程110、工程120、および工程130いずれかを判断する技法がここで述べられるであろう。図4は、スピーチ活動が短いバーストか、またはインパルス雑音であるかを判断し、短いバーストか、またはインパルス雑音であると判断されると、客観的なスピーチ・フレーム品質評価ν(m)を修正する実施形態を説明するフローチャート400を示す。工程405にて、フレーム包絡線e(l)が、たとえば、式(6)、すなわち、
Figure 0004989021
に従って最大であるような間隔Tのフレームlを見出すことによって、インパルス雑音フレームlが求められる。ここで、uおよびdはそれぞれ、間隔Tの始まりと終わりのフレームlを表す。工程410にて、フレーム包絡線e(l)は、人の聴取者が、対応するフレームlを迷惑である短いバーストとして考えることができるかどうかを示す聴取者しきい値と比較される。一実施形態において、聴取者しきい値は8である。すなわち、工程410にて、e(l)がチェックされて、e(l)が8より大きいかどうかが判断される。フレーム包絡線e(l)が聴取者しきい値より大きくない場合、工程415にて、スピーチ活動は、短いバーストまたはインパルス雑音でないと判断される。
フレーム包絡線e(l)が聴取者しきい値より大きい場合、工程420にて、間隔Tの持続期間がチェックされて、Tの持続期間が、短いバーストのしきい値および認識しきい値の両方を満足するかどうかが判断される。すなわち、間隔Tがチェックされて、間隔Tが、人の聴取者が認識するのに短過ぎず、短いバーストとして分類するのに長過ぎないかどうかが判断される。一実施形態において、間隔Tの持続期間が、28ms以上でかつ60ms以下、すなわち、28≦T≦60である場合、工程420のしきい値の両方が満足される。そうでない時、工程420のしきい値は満足されない。工程420のしきい値が満足されない場合、工程425にて、スピーチ活動は、短いバーストかまたはインパルス雑音でないと判断される。
工程420のしきい値が満足される場合、工程430にて、最大デルタ・フレーム包絡線Δe(l)が、間隔Tの始まる前の1つまたは複数のフレームから間隔Tの最初の1つまたは複数のフレームにおけるフレーム包絡線e(l)から求められ、その後、0.25などの急な変化のしきい値と比較される。急な変化のしきい値は、フレーム包絡線の急な変化を識別するための基準を表す。一実施形態において、最大デルタ・フレーム包絡線Δe(l)は、フレーム包絡線e(u−1)、すなわち、間隔Tの直前のフレーム包絡線から、フレーム包絡線e(u+5)、すなわち、間隔Tの5番目のフレーム包絡線にわたって求められ、0.25のしきい値と比較される。すなわち、工程430にて、最大デルタ・フレーム包絡線Δe(l)がチェックされて、式(7)が、
Figure 0004989021
を満たすかどうかが判断される。最大デルタ・フレーム包絡線Δe(l)がしきい値を超えない場合、工程435にて、スピーチ活動が、短いバーストまたはインパルス雑音でないと判断される。
最大デルタ・フレーム包絡線Δe(l)がしきい値を超える場合、工程440にて、フレームmが人の聴取者にとって十分に迷惑であるかどうかが判断される。ここで、mは、インパルス雑音フレームlによって最も影響を受けるフレームmに対応する。一実施形態において、客観的なスピーチ・フレーム品質評価ν(m)と変調雑音基準ユニットν(m)との比が、雑音しきい値を超えているかどうかを判断することによって、工程440が達成される。工程440は、たとえば、1.1の雑音しきい値および式(8)、すなわち、
Figure 0004989021
を用いて、表すことができる。ここで、式(8)が満たされる場合、フレームmが人の聴取者にとって十分に迷惑であると判断されるであろう。客観的なスピーチ・フレーム品質評価ν(m)が人の聴取者にとって十分に迷惑であると判断される場合、工程445にて、スピーチ活動は、短いバーストまたはインパルス雑音でないと判断される。
客観的なスピーチ・フレーム品質評価ν(m)が人の聴取者にとってそれほどうるさくないと判断される場合、工程450にて、所定の最小または最大持続期間しきい値を満たす間隔Gi−1,i、Gi,i+1、Ti−1、および/またはTi+1の持続期間に関する条件がチェックされて、条件が人のスピーチに属することが確認される。一実施形態において、工程450の条件は、式(9)および式(10)として表される。
i−1,i<180ms、Gi,i+1>40msおよびTi−1>50ms (9)
i−1,i>40ms、Gi,i+1<100msおよびTi−1>60ms (10)
これらの式または条件の任意のものが満たされる場合、工程455にて、スピーチ活動は、短いバーストまたはインパルス雑音でないと判断される。むしろ、スピーチ活動は、自然なスピーチであると判断される。式(9)および式(10)で用いられる最小および最大持続期間しきい値が、単に例示のためであり、異なってもよいことが理解されなけらばならない。
工程450の条件が何も満たされない場合、工程460にて、客観的なスピーチ・フレーム品質評価ν(m)は、式(11)、すなわち、
Figure 0004989021
に従って修正される。
図5は、スピーチ活動が急な停止か、または無音を有するかを判断し、こうしたスピーチ活動が急な停止か、または無音を有すると判断されると、客観的なスピーチ・フレーム品質評価ν(m)を修正する実施形態を説明するフローチャート500を示す。工程505にて、急な停止フレームフレームlが求められる。急な停止フレームlは、間隔Tの全てのフレームlを用いて、スピーチ活動におけるデルタ・フレーム包絡線Δe(l)の負のピークを初めて見出すことによって求められる。デルタ・フレーム包絡線Δe(l)は、3≦j≦3について、Δe(l)<Δe(l+j)である場合に、lにおいて負のピークを有する。負のピークが見出されると、急な停止フレームフレームlは、デルタ・フレーム包絡線Δe(l)の負のピークの最小値として求められる。工程510にて、デルタ・フレーム包絡線Δe(l)がチェックされて、急な停止しきい値が満たされているかどうかが判断される。急な停止しきい値は、急な停止があると考えられる、1つのフレームlから別のフレームl+1へのフレーム包絡線における十分な負の変化が存在したかどうかを判断する基準を表す。一実施形態において、急な停止しきい値は−0.56であり、工程510は、式(12)、すなわち、
Δe(l)<−0.56 (12)
で表すことができる。デルタ・フレーム包絡線Δe(l)が急な停止しきい値を満たさない場合、工程515にて、スピーチ活動が急な停止か、または無音を有さないと判断される。
デルタ・フレーム包絡線Δe(l)が急な停止しきい値を満たす場合、工程520にて、間隔Tがチェックされて、スピーチ活動が、十分な持続期間である、たとえば、短いバーストより長いかが判断される。一実施形態において、間隔Tの持続期間がチェックされて、間隔Tの持続期間が持続期間しきい値、たとえば60msを超えているかが判断される。すなわち、T<60msである場合、間隔Tと関連するスピーチ活動は十分な持続期間でない。スピーチ活動が十分な持続期間でないと考えられる場合、工程525にて、スピーチ活動が急な停止か、または無音を有さないと判断される。
スピーチ活動が十分な持続期間であると考えられる場合、工程530にて、最大フレーム包絡線e(l)は、フレームlの前の1つまたは複数のフレームからフレームl以降にわたって求められ、その後、停止エネルギーしきい値と比較される。停止エネルギーしきい値は、フレーム包絡線が、無音になる前に十分なエネルギーを有しているかどうかを判断する基準を表す。一実施形態において、最大フレーム包絡線e(l)は、フレームl−7からlにわたって求められ、9.5の停止エネルギーしきい値と比較される。すなわち、
Figure 0004989021
最大フレーム包絡線e(l)が停止エネルギーしきい値を満たさない場合、工程535にて、スピーチ活動が急な停止か、または無音を有さないと判断される。
最大フレーム包絡線e(l)が停止エネルギーしきい値を満たす場合、式(13)、すなわち、
Figure 0004989021
に従って、m,…,m+6などのいくつかのフレームmについて、客観的なスピーチ・フレーム品質評価ν(m)が修正される。ここで、mは、急な停止フレームlによって最も影響を受けるフレームmに対応する。
図6は、スピーチ活動が急な開始を有するかを判断し、こうしたスピーチ活動が急な開始を有すると判断すると、客観的なスピーチ・フレーム品質評価ν(m)を修正する実施形態を説明するフローチャート600を示す。工程605にて、急な開始フレームlが求められる。急な開始フレームフレームlは、間隔Tの全てのフレームlを用いて、スピーチ活動におけるデルタ・フレーム包絡線Δe(l)の正のピークを初めて見出すことによって求められる。デルタ・フレーム包絡線Δe(l)は、3≦j≦3について、Δe(l)>Δe(l+j)である場合に、lにおいて正のピークを有する。正のピークが見出されると、急な開始フレームlは、デルタ・フレーム包絡線Δe(l)の正のピークの最大値として求められる。工程610にて、デルタ・フレーム包絡線Δe(l)がチェックされて、急な開始しきい値が満たされているかどうかが判断される。急な開始しきい値は、急な開始があると考えられる、1つのフレームlから別のフレームl+1へのフレーム包絡線における十分な正の変化が存在したかどうかを判断する基準を表す。一実施形態において、急な開始しきい値は0.9であり、工程610は、式(14)、すなわち、
Δe(l)>0.9 (14)
で表すことができる。デルタ・フレーム包絡線Δe(l)が急な開始しきい値を満たさない場合、工程615にて、スピーチ活動が急な開始を有さないと判断される。
デルタ・フレーム包絡線Δe(l)が急な開始しきい値を満たす場合、工程620にて、間隔Tがチェックされて、スピーチ活動が、十分な持続期間である、たとえば、短いバーストより長いかが判断される。一実施形態において、間隔Tの持続期間がチェックされて、間隔Tの持続期間が短いバーストしきい値、たとえば60msを超えているかが判断される。すなわち、T<60msである場合、間隔Tと関連するスピーチ活動は十分な持続期間でない。スピーチ活動が十分な持続期間でない場合、工程625にて、スピーチ活動が急な開始を有さないと判断される。
スピーチ活動が十分な持続期間である場合、工程630にて、最大フレーム包絡線e(l)は、フレームlを含むその前からフレームl後の1つまたは複数のフレームにわたって求められ、その後、開始エネルギーしきい値と比較される。開始エネルギーしきい値は、フレーム包絡線が、十分なエネルギーを有しているかどうかを判断する基準を表す。一実施形態において、最大フレーム包絡線e(l)は、フレームlからl+7にわたって求められ、12の開始エネルギーしきい値と比較される。すなわち、
Figure 0004989021
最大フレーム包絡線e(l)が開始エネルギーしきい値を満たさない場合、工程635にて、スピーチ活動が急な開始を有さないと判断される。
最大フレーム包絡線e(l)が開始エネルギーしきい値を満たす場合、式(16)、すなわち、
Figure 0004989021
に従って、m,…,m+6などのいくつかのフレームmについて、客観的なスピーチ・フレーム品質評価ν(m)が修正される。ここで、mは、急な開始フレームlによって最も影響を受けるフレームmに対応する。式(11)、(13)、および(16)で用いられる値が実験によって導出されたことを理解すべきである。他の値も可能である。したがって、本発明は、これらの特定の値に限定されるべきでない。
なお、修正した客観的なスピーチ・フレーム品質評価
Figure 0004989021
が求まると、式(17)、すなわち、
ν(m)=min(νs,I(m),νs,M(m),νs,S(m)) (17)
を用いて、工程145で行った統合を行うことができる。ここで、νs,I(m)、νs,M(m)、およびνs,S(m)はそれぞれ、式(11)、式(13)、および式(16)の修正した客観的なスピーチ・フレーム品質評価
Figure 0004989021
に対応する。
本発明は、一定の実施形態を参照してかなり詳細に述べられたが、他を用いたものが可能である。たとえば、フローチャートの工程の順序は、再編成されるか、あるいは、ある工程(または基準)が、フローチャートから削除されるか、または、フローチャートに追加されることができる。したがって、本発明の精神および範囲は、本明細書に含まれる実施形態の説明に限定されるべきではない。本発明は、あるタイプのプロセッサに組み込まれたハードウェアまたはソフトウェアのいずれとしても実施することができることもまた当業者に理解されるべきである。
本発明の一実施形態による、言語効果を考慮する客観的なスピーチ品質評価技法を説明するフローチャートである。 本発明の一実施形態による、スピーチ信号に関連する包絡線情報を調べることによって音声活動を検出する音声活動検出器(VAD)を説明するフローチャートである。 スピーチおよびスピーチでない活動の間隔TおよびGをそれぞれ説明する、例としてのVAD活動図である。 スピーチ活動が、短いバーストかまたはインパルス雑音であるかどうかが判断され、短いバーストかまたはインパルス雑音であると判断されると、客観的なスピーチ・フレーム品質評価ν(m)を修正する実施形態を説明するフローチャートである。 スピーチ活動が急な停止か、または無音を有するかを判断し、こうしたスピーチ活動が急な停止か、または無音を有すると判断されると、客観的なスピーチ・フレーム品質評価ν(m)を修正する実施形態を説明するフローチャートである。 スピーチ活動が急な開始を有するかどうかが判断され、スピーチ活動が急な開始を有すると判断されると、客観的なスピーチ・フレーム品質評価ν(m)を修正する実施形態を説明するフローチャートである。

Claims (10)

  1. 客観的にスピーチ品質を評価する方法であって、
    スピーチ信号に関連する包絡線情報を用いてスピーチ活動の時間的間隔において各々の歪タイプについて歪みを検出するステップと、
    主観的スピーチ品質評価に対する該検出された歪みの影響をモデル化又はシュミュレートすることで、該スピーチ活動に関連する客観的スピーチ品質評価値を修正するステップと、
    該検出するステップに先立って、該包絡線情報を使用してスピーチ活動の該時間的間隔を決定するステップを含み、該スピーチ活動に関連する客観的スピーチ品質評価値を修正するステップによって修正されている該客観的スピーチ品質評価値が、検出された歪タイプに基づいている方法。
  2. 該修正するステップは、該スピーチ活動についての該客観的スピーチ品質評価値を求めるステップを含む請求項1に記載の方法。
  3. 該検出され歪みタイプは、インパルス雑音、急な停止または急な開始を含む請求項1に記載の方法。
  4. 該検出するステップは歪みタイプを求めるステップを含む請求項1に記載の方法。
  5. 該包絡線情報が、該スピーチ活動が人の聴取者によって雑音であると認識されることができることを示す場合で、且つ、該間隔が、人の聴取者によって認識されるのに十分に長いが、短いバーストについては長過ぎない持続期間である場合に、該歪みタイプがインパルス雑音であると判断される請求項4に記載の方法。
  6. 該包絡線情報が、急な停止と考えられる、1つのフレームから別のフレームへのフレーム・エネルギーの十分な負の変化が存在したことを示す場合で、且つ、該間隔が短いバーストより長い持続期間である場合に、該歪みタイプが急な停止であると判断される請求項4に記載の方法。
  7. 該包絡線情報が、急な開始と考えられる、1つのフレームから別のフレームへのフレーム・エネルギーの十分な正の変化が存在したことを示す場合で、且つ、該間隔が短いバーストより長い持続期間である場合に、該歪みタイプが急な開始であると判断される請求項4に記載の方法。
  8. 客観的なスピーチ品質評価システムであって、
    スピーチ信号に関連する包絡線情報を用いてスピーチ活動の時間的間隔において各々の歪タイプについて歪みを検出する手段と、
    主観的スピーチ品質評価に対する該検出された歪みの影響をモデル化又はシュミュレートすることで、該スピーチ活動に関連する客観的スピーチ品質評価値を修正する手段とを備え、
    該歪を検出するのに先立って、該包絡線情報を使用してスピーチ活動の該時間的間隔を決定し、該スピーチ活動に関連する客観的スピーチ品質評価値を修正する手段によって修正されている該客観的スピーチ品質評価値が、検出された歪タイプに基づいている客観的なスピーチ品質評価システム。
  9. 該修正する手段は、該スピーチ活動についての歪みを考慮することなく、該客観的スピーチ品質評価値を求める手段を含む請求項8に記載の客観的なスピーチ品質評価システム。
  10. 該検出する手段は歪みタイプを求める手段を含む請求項8に記載の客観的なスピーチ品質評価システム。
JP2004187432A 2003-06-25 2004-06-25 客観的なスピーチ品質評価において時間/言語歪みを反映する方法 Expired - Fee Related JP4989021B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/603212 2003-06-25
US10/603,212 US7305341B2 (en) 2003-06-25 2003-06-25 Method of reflecting time/language distortion in objective speech quality assessment

Publications (2)

Publication Number Publication Date
JP2005018076A JP2005018076A (ja) 2005-01-20
JP4989021B2 true JP4989021B2 (ja) 2012-08-01

Family

ID=33418650

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004187432A Expired - Fee Related JP4989021B2 (ja) 2003-06-25 2004-06-25 客観的なスピーチ品質評価において時間/言語歪みを反映する方法

Country Status (5)

Country Link
US (1) US7305341B2 (ja)
EP (1) EP1492085A3 (ja)
JP (1) JP4989021B2 (ja)
KR (1) KR101099325B1 (ja)
CN (1) CN100573662C (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112017694A (zh) * 2020-08-25 2020-12-01 天津洪恩完美未来教育科技有限公司 语音数据的评测方法和装置、存储介质和电子装置

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7308403B2 (en) * 2002-07-01 2007-12-11 Lucent Technologies Inc. Compensation for utterance dependent articulation for speech quality assessment
US7165025B2 (en) * 2002-07-01 2007-01-16 Lucent Technologies Inc. Auditory-articulatory analysis for speech quality assessment
US7305341B2 (en) * 2003-06-25 2007-12-04 Lucent Technologies Inc. Method of reflecting time/language distortion in objective speech quality assessment
US20050086705A1 (en) * 2003-08-26 2005-04-21 Jarman Matthew T. Method and apparatus for controlling play of an audio signal
US7386451B2 (en) * 2003-09-11 2008-06-10 Microsoft Corporation Optimization of an objective measure for estimating mean opinion score of synthesized speech
US7856355B2 (en) * 2005-07-05 2010-12-21 Alcatel-Lucent Usa Inc. Speech quality assessment method and system
JP2007049462A (ja) * 2005-08-10 2007-02-22 Ntt Docomo Inc 音声品質評価装置、音声品質評価プログラム及び音声品質評価方法
KR100729555B1 (ko) * 2005-10-31 2007-06-19 연세대학교 산학협력단 음성 품질의 객관적인 평가방법
JP2007233264A (ja) * 2006-03-03 2007-09-13 Nippon Telegr & Teleph Corp <Ntt> 音声品質客観評価装置および音声品質客観評価方法
EP2148327A1 (en) * 2008-07-23 2010-01-27 Telefonaktiebolaget L M Ericsson (publ) A method and a device and a system for determining the location of distortion in an audio signal
WO2011010962A1 (en) * 2009-07-24 2011-01-27 Telefonaktiebolaget L M Ericsson (Publ) Method, computer, computer program and computer program product for speech quality estimation
FR2973923A1 (fr) * 2011-04-11 2012-10-12 France Telecom Evaluation de la qualite vocale d'un signal de parole code
CN103716470B (zh) * 2012-09-29 2016-12-07 华为技术有限公司 语音质量监控的方法和装置
US9349386B2 (en) * 2013-03-07 2016-05-24 Analog Device Global System and method for processor wake-up based on sensor data
DE102013005844B3 (de) * 2013-03-28 2014-08-28 Technische Universität Braunschweig Verfahren und Vorrichtung zum Messen der Qualität eines Sprachsignals
US9830905B2 (en) * 2013-06-26 2017-11-28 Qualcomm Incorporated Systems and methods for feature extraction
CN105721217A (zh) * 2016-03-01 2016-06-29 中山大学 基于Web的音频通信质量改进方法
CN108010539A (zh) * 2017-12-05 2018-05-08 广州势必可赢网络科技有限公司 一种基于语音激活检测的语音质量评估方法及装置
KR102884780B1 (ko) * 2024-01-03 2025-11-11 주식회사 아이밋 음성 합성 방법 및 음성 합성 시스템

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3971034A (en) * 1971-02-09 1976-07-20 Dektor Counterintelligence And Security, Inc. Physiological response analysis method and apparatus
AU1436792A (en) * 1991-02-22 1992-09-15 Seaway Technologies, Inc. Acoustic method and apparatus for identifying human sonic sources
JPH04345327A (ja) * 1991-05-23 1992-12-01 Nippon Telegr & Teleph Corp <Ntt> 通話品質客観測定方法
JPH05313695A (ja) * 1992-05-07 1993-11-26 Sony Corp 音声分析装置
JP2953238B2 (ja) * 1993-02-09 1999-09-27 日本電気株式会社 音質主観評価予測方式
JPH0784596A (ja) * 1993-09-13 1995-03-31 Nippon Telegr & Teleph Corp <Ntt> 符号化音声の品質評価方法
US5454375A (en) * 1993-10-21 1995-10-03 Glottal Enterprises Pneumotachograph mask or mouthpiece coupling element for airflow measurement during speech or singing
JPH09505701A (ja) * 1993-11-25 1997-06-03 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 電気通信装置の試験
DE69517325T2 (de) * 1994-08-18 2000-12-28 British Telecommunications P.L.C., London Tonqualitätsanalyse
JPH08101700A (ja) * 1994-09-30 1996-04-16 Toshiba Corp ベクトル量子化装置
US5715372A (en) * 1995-01-10 1998-02-03 Lucent Technologies Inc. Method and apparatus for characterizing an input signal
DE69626115T2 (de) * 1995-07-27 2003-11-20 British Telecommunications P.L.C., London Signalqualitätsbewertung
GB9604315D0 (en) * 1996-02-29 1996-05-01 British Telecomm Training process
US6119083A (en) * 1996-02-29 2000-09-12 British Telecommunications Public Limited Company Training process for the classification of a perceptual signal
US6052662A (en) * 1997-01-30 2000-04-18 Regents Of The University Of California Speech processing using maximum likelihood continuity mapping
JPH113097A (ja) * 1997-06-13 1999-01-06 Nippon Telegr & Teleph Corp <Ntt> 符号化音声信号品質評価方法及びこれに用いるデータベース
DE19840548C2 (de) 1998-08-27 2001-02-15 Deutsche Telekom Ag Verfahren zur instrumentellen Sprachqualitätsbestimmung
JP2000250568A (ja) * 1999-02-26 2000-09-14 Kobe Steel Ltd 音声区間検出装置
US6246978B1 (en) * 1999-05-18 2001-06-12 Mci Worldcom, Inc. Method and system for measurement of speech distortion from samples of telephonic voice signals
US6609092B1 (en) * 1999-12-16 2003-08-19 Lucent Technologies Inc. Method and apparatus for estimating subjective audio signal quality from objective distortion measures
JP4080153B2 (ja) * 2000-10-31 2008-04-23 京セラコミュニケーションシステム株式会社 音声品質評価方法及び評価装置
FR2817096B1 (fr) 2000-11-23 2003-02-28 France Telecom Procede et systeme de detection non intrusive des defauts d'un signal de parole transmis en telephonie sur reseau de transmission par paquets
JP3868278B2 (ja) * 2001-11-30 2007-01-17 沖電気工業株式会社 音声信号品質評価装置及びその方法
US7165025B2 (en) * 2002-07-01 2007-01-16 Lucent Technologies Inc. Auditory-articulatory analysis for speech quality assessment
US7308403B2 (en) * 2002-07-01 2007-12-11 Lucent Technologies Inc. Compensation for utterance dependent articulation for speech quality assessment
US7305341B2 (en) * 2003-06-25 2007-12-04 Lucent Technologies Inc. Method of reflecting time/language distortion in objective speech quality assessment

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112017694A (zh) * 2020-08-25 2020-12-01 天津洪恩完美未来教育科技有限公司 语音数据的评测方法和装置、存储介质和电子装置
CN112017694B (zh) * 2020-08-25 2021-08-20 天津洪恩完美未来教育科技有限公司 语音数据的评测方法和装置、存储介质和电子装置

Also Published As

Publication number Publication date
US7305341B2 (en) 2007-12-04
KR20050001409A (ko) 2005-01-06
US20040267523A1 (en) 2004-12-30
KR101099325B1 (ko) 2011-12-26
CN100573662C (zh) 2009-12-23
CN1617222A (zh) 2005-05-18
EP1492085A3 (en) 2005-02-16
JP2005018076A (ja) 2005-01-20
EP1492085A2 (en) 2004-12-29

Similar Documents

Publication Publication Date Title
JP4989021B2 (ja) 客観的なスピーチ品質評価において時間/言語歪みを反映する方法
JP5870309B2 (ja) 補聴器および補聴処理方法
Loizou Speech quality assessment
EP2372700A1 (en) A speech intelligibility predictor and applications thereof
US6807525B1 (en) SID frame detection with human auditory perception compensation
US8155966B2 (en) Apparatus and method for producing an audible speech signal from a non-audible speech signal
US8818798B2 (en) Method and system for determining a perceived quality of an audio system
JP2002014689A (ja) デジタルに圧縮されたスピーチの了解度を向上させる方法および装置
Plourde et al. Auditory-based spectral amplitude estimators for speech enhancement
EP2743923B1 (en) Voice processing device, voice processing method
US20070078652A1 (en) System and method for detecting the recognizability of input speech signals
US8935168B2 (en) State detecting device and storage medium storing a state detecting program
JP5863928B1 (ja) 音声調整装置
Nogueira et al. Artificial speech bandwidth extension improves telephone speech intelligibility and quality in cochlear implant users
JP4113481B2 (ja) 音声品質客観評価装置および音声品質客観評価方法
JP2007219188A (ja) 子音加工装置、音声情報伝達装置及び子音加工方法
US11758337B2 (en) Audio processing apparatus
Huckvale et al. Evaluating a 3-factor listener model for prediction of speech intelligibility to hearing-impaired listeners
US11017793B2 (en) Nuisance notification
Watkins et al. An investigation of the effect of AGC gain on the output signal to noise ratio in cochlear implant sound processing
JP4632831B2 (ja) 音声認識方法および音声認識装置
Jebaruby et al. Weighted Energy Reallocation Approach for Near-end Speech Enhancement
Murrin et al. Objective measure of the performance of voice activity detectors
Kazlauskas Noisy speech intelligibility enhancement
JPH06118993A (ja) 有声/無声判定回路

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100531

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100831

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100903

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100930

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101130

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20101130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110608

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110908

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120402

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120427

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees