JP2002014689A - デジタルに圧縮されたスピーチの了解度を向上させる方法および装置 - Google Patents

デジタルに圧縮されたスピーチの了解度を向上させる方法および装置

Info

Publication number
JP2002014689A
JP2002014689A JP2001165981A JP2001165981A JP2002014689A JP 2002014689 A JP2002014689 A JP 2002014689A JP 2001165981 A JP2001165981 A JP 2001165981A JP 2001165981 A JP2001165981 A JP 2001165981A JP 2002014689 A JP2002014689 A JP 2002014689A
Authority
JP
Japan
Prior art keywords
frame
amplitude
frames
sound
speech signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001165981A
Other languages
English (en)
Other versions
JP3875513B2 (ja
Inventor
Paul Roller Michaelis
ローラー ミッシェリス ポール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Avaya Technology LLC
Original Assignee
Avaya Technology LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Avaya Technology LLC filed Critical Avaya Technology LLC
Publication of JP2002014689A publication Critical patent/JP2002014689A/ja
Application granted granted Critical
Publication of JP3875513B2 publication Critical patent/JP3875513B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 了解度の問題を典型的に表す音を含むスピー
チ信号の部分を識別し、適切な方法でこれらの部分を修
正する。 【解決手段】 スピーチ信号がデジタル化され、個々の
フレームに分割される(ステップ30)。スペクトル分
析が個々のフレームに対してそれぞれ行われ、フレーム
のスペクトル内容を判定する(ステップ32)。次に分
析され、各フレームに関連する音のタイプを判定する
(ステップ34)。フレームに関連する音のタイプに基
づいて、そのフレームに対応する情報を、出力信号の了
解度を向上させるために修正してもよい(ステップ3
6)。フレームに対応するスペクトル情報が、修正され
ていても修正されていなくても、圧縮スピーチ信号に収
集される(ステップ38)。この圧縮スピーチ信号は、
後に復号化され、高められた了解度を有する可聴スピー
チ信号を生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、包括的にスピーチ
処理に関し、より具体的には、処理されたスピーチの了
解度を高める技術に関する。
【0002】
【従来の技術】人間のスピーチは、一般的に比較的大き
なダイナミックレンジを有する。たとえば、いくつかの
子音の音(たとえば、無声子音P、T、S、F)の振幅
は、多くの場合、同じ文を話した場合の母音の音の振幅
よりも30dB小さい。したがって子音の音は、聴取者
のスピーチ検出しきい値より低くなることがあり、ひい
ては、スピーチの了解度を劣悪にする。この問題は、聴
取者が難聴である場合、聴取者が雑音の多い環境にいる
場合、または聴取者が低い信号強度を受け取る領域にい
る場合に悪化する。
【0003】伝統的に、スピーチ信号における特定の音
の潜在的な非了解度は、信号に対してある形態の振幅圧
縮を使用することで克服された。たとえば、1つの従来
の方法では、信号の当初の大きさは維持しながら、新し
い信号のピークと新しい信号の低い部分との間の差が低
減されるように、スピーチ信号の振幅ピークがクリッピ
ングされ、その結果生じた信号が増幅された。しかしな
がら振幅圧縮は、多くの場合、結果生じた信号内に、信
号の高振幅成分を平滑にすることから生じる高調波ひず
みなどの他の形態のひずみをもたらす。さらに振幅圧縮
技術は、不適切な方法でいくつかの望ましくない低レベ
ル信号成分(たとえば、バックグラウンドノイズ)を増
幅する傾向があり、ひいては、結果生じた信号の品質を
劣悪にする。
【0004】
【発明が解決しようとする課題】したがって、従来の技
術に関連する望ましくない効果を生じることなく、処理
されたスピーチの了解度を高めることのできる方法およ
び装置が必要とされている。
【0005】
【課題を解決するための手段】本発明は、処理されたス
ピーチの了解度を大幅に高めることのできるシステムに
関する。本システムは、線形予測符号化(LPC)およ
び符号励振線形予測(CELP)などの特定の低ビット
レートのスピーチ符号化アルゴリズムにおいて一般的に
行われるように、まず、スピーチ信号をフレームまたは
セグメントに分割する。次いで本システムは、各フレー
ムのスペクトル内容を分析し、そのフレームに関連する
音のタイプを判定する。各フレームの分析は、一般的
に、対象のフレームを取り囲む1つまたは複数の他のフ
レームに関連して行われる。分析は、たとえば、フレー
ムに関連する音が母音の音であるか、有声の摩擦音であ
るか、または無声の破裂音であるかを判定する場合があ
る。
【0006】特定のフレームに関連する音のタイプに基
づいて、本システムは、修正によって了解度が高められ
ると考えられる場合にフレームを修正する。たとえば、
無声の破裂音は一般的に人間のスピーチ内の他の音より
も小さい振幅を有することが知られている。したがっ
て、無声の破裂音を含んでいると識別されたフレームの
振幅は、他のフレームに対してブーストされる。フレー
ムに関連する音のタイプに基づいてそのフレームを修正
することに加えて、本システムは、フレームに関連する
音のタイプに基づいて、その特定のフレームを取り囲む
フレームを修正してもよい。たとえば、対象のフレーム
が無声の破裂音を含んでいると識別される場合、この対
象のフレームに先行するフレームの振幅を低減し、破裂
音がスペクトル的に同様の破裂音と間違われないように
保証することができる。特定のフレーム内に含まれるス
ピーチのタイプに対するフレーム修正決定に基づくこと
によって、振幅に基づいた盲目的な信号修正(たとえ
ば、すべての低レベル信号をブーストすること)によっ
て生じる問題が回避される。すなわち本発明の原理は、
フレームが選択的かつ知的に修正され、高められた信号
了解度を実現することを可能にする。
【0007】
【発明の実施の形態】本発明は、処理されたスピーチの
了解度を大幅に高めることのできるシステムに関する。
本システムは、スピーチ信号の個々のフレームに関連す
る音のタイプを判定し、対応する音のタイプに基づいて
これらのフレームを修正する。1つの方法において、本
発明の原理は、フレームに基づいたスピーチのデジタル
化を行う、LCPおよびCELPアルゴリズムなどの周
知のスピーチ符号化アルゴリズムに対する改善形態とし
て実施される。本システムは、従来の振幅クリッピング
技術に多くの場合関連するひずみを生成することなく、
スピーチ信号の了解度を向上させることができる。本発
明の原理は、たとえばメッセージングシステム、IVR
アプリケーション、および無線電話システムを含む様々
なスピーチアプリケーションにおいて使用することがで
きる。本発明の原理は、たとえば補聴器および人工耳な
どの難聴を補助するように設計される装置においても実
施することができる。
【0008】図1は、本発明の一実施形態によるスピー
チ処理システム10を図示するブロック図である。スピ
ーチ処理システム10は、入力ポート12でアナログス
ピーチ信号を受信し、この信号を出力ポート14で出力
される圧縮デジタルスピーチ信号に変換する。入力信号
に対して信号圧縮およびアナログデジタル変換機能を行
うことに加えて、システム10はまた、後の再生のため
に入力信号の了解度を高める。図示したように、スピー
チ処理システム10は、アナログデジタル(A/D)コ
ンバータ16、フレーム分離ユニット18、フレーム分
析ユニット20、フレーム修正ユニット22、及び圧縮
ユニット24を備える。図1において図示されるブロッ
クは、実際に機能的であり、別個のハードウェア素子に
必ずしも対応するわけではないことを理解されたい。一
実施形態において、たとえばスピーチ処理システム10
は、単一のデジタル処理装置内に実装される。しかしな
がら、ハードウェアの実施もまた可能である。
【0009】図1を参照すると、ポート12で受信され
るアナログスピーチ信号は、まずA/Dコンバータ16
内でサンプリングかつデジタル化され、フレーム分離ユ
ニット18に分配するためのデジタル波形を生成する。
フレーム分離ユニット18は、デジタル波形を個々の時
間に基づいたフレームに分割するように動作する。好適
な方法において、これらのフレームは、それぞれ約20
〜25ミリ秒の長さである。フレーム分析ユニット20
は、フレーム分割ユニット18からフレームを受け取
り、個々のフレームそれぞれに対してスペクトル分析を
行い、フレームのスペクトル内容を判定する。次いでフ
レーム分析ユニット20は、各フレームのスペクトル情
報をフレーム修正ユニット22に転送する。フレーム修
正ユニット22は、スペクトル分析の結果を使用し、個
々のフレームそれぞれに関連する音のタイプ(スピーチ
のタイプ)を判定する。次いでフレーム修正ユニット2
2は、識別された音のタイプに基づいて、選択されたフ
レームを修正する。フレーム修正ユニット22は通常、
対象のフレームに対応するスペクトル情報と、対象のフ
レームを取り囲む1つまたは複数のフレームに対応する
スペクトル情報とを分析し、対象のフレームに関連する
音のタイプを判定する。
【0010】フレーム修正ユニット22は、フレームに
関連する音のタイプに基づいて選択されたフレームを修
正する規則のセットを含む。一実施形態において、フレ
ーム修正ユニット22はまた、対象のフレームに関連す
る音のタイプに基づいて、対象のフレームを取り囲むフ
レームを修正する規則を含む。フレーム修正ユニット2
2によって使用される規則は、システム10によって生
成される出力信号の了解度を増加させるように設計され
る。したがって修正は、人間の耳がこれらの音を他の類
似した音と区別できるようにする特定の音の特性を強調
するように意図されている。フレームの多くは、プログ
ラムされる特別な規則によっては、フレーム修正ユニッ
ト22によって修正されないままの場合がある。
【0011】修正された、および修正されないフレーム
情報は次に、すべてのフレームのスペクトル情報を収集
して出力ポート14で圧縮出力信号を生成するデータ収
集ユニット24に転送される。次いで圧縮出力信号は、
通信媒体を介して遠隔地に転送されるか、もしくは後の
復号化および再生のために格納されることができる。図
1のフレーム修正ユニット22の了解性を高める機能
を、代替的に(または任意選択的に)信号再生中の復号
化処理の一部として行うことができることを理解された
い。
【0012】一実施形態において、本発明の原理は、線
形予測符号化(LPC)アルゴリズムおよび符号励振線
形予測(CELP)アルゴリズムなどの特定の周知のス
ピーチ符号化および/または復号化アルゴリズムに対す
る改善形態として実施される。実際本発明の原理は、フ
レームに基づいたスピーチデジタル化に基礎を置いた、
実質的に任意の符号化および復号化アルゴリズムととも
に使用することができる(すなわち、スピーチを個々の
時間に基づいたフレームに分割し、各フレームのスペク
トル内容をキャプチャーして、スピーチのデジタル表現
を生成する)。典型的には、これらのアルゴリズムは、
人間の声道生理学の数学モデルを利用して、全体的な振
幅などの人間のスピーチメカニズムの類比の点で各フレ
ームのスペクトル内容(フレームの音が有声であるかま
たは無声であるか、有声の場合は音のピッチ)を説明す
る。次いでこのスペクトル情報は、圧縮デジタルスピー
チ信号に収集される。本発明によって修正することがで
きる様々なスピーチデジタル化アルゴリズムのより詳細
な説明は、2000年にロンドンのTaylor & Francisに
よって出版され、Waldamar Karwowskiによって編集され
た、InternationalEncyclopedia of Ergonomics and Hu
man Factorsの中の、Paul Michaelisによる論文「Speec
h Digitization and Compression」において見いだすこ
とができる。
【0013】本発明の一実施形態によると、かかるアル
ゴリズム内で生成されたスペクトル情報(および他のス
ペクトル情報の場合もある)が、各フレームに関連する
音のタイプを判定するために使用される。了解度にとっ
てどの音のタイプが重要であるか、およびどの音のタイ
プが典型的により聞き取り難いかという知識が、了解度
を増加させるような方法で、フレーム情報を修正するた
めの規則を開発するために使用される。次いでその規則
は、判定された音のタイプに基づいて、選択されたフレ
ームのフレーム情報を修正するために使用される。各フ
レームのためのスペクトル情報は、修正されていても修
正されていなくても、従来の方法(たとえば、LPC、
CELP、または他の同様のアルゴリズムによって典型
的に使用される方法)で、圧縮スピーチ信号を開発する
ために使用される。
【0014】図2は、本発明の一実施形態によるアナロ
グスピーチ信号を処理する方法を図示するフローチャー
トである。まずスピーチ信号がデジタル化され、個々の
フレームに分割される(ステップ30)。次いで、スペ
クトル分析が個々のフレームに対してそれぞれ行われ、
フレームのスペクトル内容を判定する(ステップ3
2)。典型的には、音の振幅、ボイシング、ピッチ(も
しあれば)などのスペクトルパラメータが、スペクトル
分析中に測定される。フレームのスペクトル内容が次に
分析され、各フレームに関連する音のタイプを判定する
(ステップ34)。特定のフレームに関連する音のタイ
プを判定するために、多くの場合、特定のフレームを取
り囲む他のフレームのスペクトル内容が考慮される。フ
レームに関連する音のタイプに基づいて、そのフレーム
に対応する情報を、出力信号の了解度を向上させるため
に修正してもよい(ステップ36)。対象のフレームを
取り囲むフレームに対応する情報を、対象のフレームの
音のタイプに基づいて修正してもよい。典型的には、フ
レーム情報の修正は、対応するフレームの振幅のブース
トまたは低減を含む。しかしながら、他の修正技術もま
た可能である。たとえば、スペクトルフィルタリングを
決定する反射係数を、本発明によって修正することがで
きる。次いでフレームに対応するスペクトル情報が、修
正されていても修正されていなくても、圧縮スピーチ信
号に収集される(ステップ38)。この圧縮スピーチ信
号は、後に復号化され、高められた了解度を有する可聴
スピーチ信号を生成する。
【0015】図3および図4は、本発明の一実施形態に
よるスピーチ信号の了解度を高める際に使用される方法
を図示するフローチャートの部分である。本方法は、ス
ピーチ信号内の無声の摩擦音と、有声および無声の破裂
音とを識別し、スピーチ信号の対応するフレームの振幅
を調節して了解度を高めるように動作する。無声の摩擦
音および無声の破裂音は、スピーチ信号における他の音
よりも、スピーチ信号において典型的により小さい音量
の音である。さらにこれらの音は通常、基底をなすスピ
ーチの了解度にとって非常に重要である。有声のスピー
チ音は、息を吐きながら声帯を緊張させることによっ
て、すなわち音に声帯の震動によって生じる特定のピッ
チを与えることによって生成されるものである。したが
って有声スピーチ音のスペクトルは、基本的なピッチと
その高調波を含む。無声のスピーチ音は、声道における
可聴乱流によって生成されるものであり、声帯は弛緩し
たままである。無声のスピーチ信号のスペクトルは、典
型的に、ホワイトノイズのそれと同様である。
【0016】図3を参照すると、アナログスピーチ信号
がまず受信され(ステップ50)、次いでデジタル化さ
れる(ステップ52)。次いでデジタル波形が、個々の
フレームに分離される(ステップ54)。好適な方法に
おいて、これらのフレームは、それぞれ約20〜25ミ
リ秒の長さである。次いでフレーム毎の分析が行われ、
振幅、ボイシング、ピッチおよびスペクトルフィルタリ
ングデータなどのフレームからのデータを抽出および符
号化する(ステップ56)。抽出されたデータが、フレ
ームが無声の摩擦音を含むと示す場合、フレームの振幅
は、結果生じるスピーチ信号における音の大きさが聴取
者の検出しきい値を超える尤度を増加させるように設計
された方法で増加する(ステップ58)。フレームの振
幅を、たとえば所定の利得値によって所定の振幅値まで
増加するか、あるいは振幅を、同じスピーチ信号内の他
のフレームの振幅に依存する量だけ増加させることがで
きる。摩擦音は、可聴乱流を生成する声道の狭窄部を通
して肺から空気を押し出すことによって生成される。無
声の摩擦音の例として、ファット(fat)の「f」、サ
ット(sat)の「s」、チャット(chat)の「ch」が
挙げられる。摩擦音は、多数のサンプル期間にわたって
振幅が比較的一定であることによって特徴づけられる。
したがって無声の摩擦音は、フレームが無声音に対応す
るという決定がなされた後に多数の連続的なフレームの
振幅を比較することによって識別することができる。
【0017】抽出されたデータが、フレームが有声の破
裂音の頭の成分であることを示す場合、有声の破裂音に
先行するフレームの振幅が低減される(ステップ6
0)。破裂音は、息を完全に止めた後に急に吐き出すこ
とによって生成される音である。したがって破裂音は、
スピーチ信号において振幅が急に下降した後、振幅が急
に上昇することによって特徴付けられる。有声の破裂音
の例として、ベイト(bait)の「b」、デート(date)
の「d」、ゲート(gate)の「g」が挙げられる。破裂
音は、スピーチ信号内の隣接するフレームの振幅を比較
することによって、信号内において識別される。有声の
破裂音に先行するフレームの振幅を低減させることによ
って、破裂音を特徴づける振幅の「スパイク」に強勢が
置かれ、その結果、了解度が高まる。
【0018】抽出されたデータが、フレームが無声の破
裂音の頭の成分であることを示す場合、無声の破裂音に
先行するフレームの振幅が低減され、無声の破裂音を含
むフレームの振幅が増加される(ステップ62)。無声
の破裂音に先行するフレームの振幅は、上述したように
低減され、破裂音の振幅の「スパイク」を強調する。無
声の破裂音の頭の成分を含むフレームの振幅が増加さ
れ、結果生じるスピーチ信号における音の大きさが聴取
者の検出しきい値を超える尤度を増加させる。
【0019】図4を参照すると、次にデジタル波形のフ
レーム毎の再構成が、たとえば振幅、ボイシング、ピッ
チ、スペクトルフィルタリングデータを用いて行われる
(ステップ64)。次いで個々のフレームが、完全なデ
ジタルシーケンスにつなぎ合わされる(ステップ6
6)。次いでデジタルアナログ変換が行われ、アナログ
出力信号を生成する(ステップ68)。図3および図4
に図示される方法は、リアルタイム了解度強化手順の一
部としてすべて一度に行うことができるか、あるいは、
異なる時間において多数の副次的な手順で行うことがで
きる。たとえば本方法が補聴器において実施される場
合、全体的な方法が使用され、補聴器をつけたユーザに
よって検出されるように、入力アナログ信号を強化され
た出力アナログスピーチ信号に変換する。代替的な実施
例において、ステップ50からステップ62をスピーチ
信号復号化手順の一部として行ってもよく、一方、ステ
ップ64からステップ68は、次のスピーチ信号復号化
手順の一部として行われる。別の代替的な実施例におい
て、ステップ50からステップ56は、スピーチ信号符
号化手順の一部として行われ、一方、ステップ58から
ステップ68は、次のスピーチ復号化手順の一部として
行われる。符号化手順と復号化手順との間の期間におい
て、スピーチ信号をメモリユニット内に格納するか、あ
るいは、通信チャネルを介して遠隔位置間で転送するこ
とができる。好適な実施例において、ステップ50から
ステップ56は、周知のLPCまたはCELP符号化技
術を用いて行われる。同様に、ステップ64からステッ
プ68は、周知のLPCまたはCELP復号化技術を用
いて行うことが好ましい。
【0020】上述したものと同様の方法で、本発明の原
理を、他の音のタイプの了解度を高めるために使用する
ことができる。特定の音のタイプが了解度の問題を表す
ことが判定されると、次に、どのようにしてその音のタ
イプをスピーチ信号のフレーム内で識別できるかが判定
される(たとえば、スペクトル分析技術の使用、および
隣接するフレーム間の比較を用いて)。次いで、圧縮信
号が後に復号化されて再生される場合、かかる音を含む
フレームが、音の了解度を高めるためにどのようにして
修正される必要があるかが判定される。他のタイプのフ
レーム修正も本発明により可能であるが(たとえば、ス
ペクトルフィルタリングを決定する反射係数に対する修
正)、典型的には、修正は、対応するフレームの振幅の
単純なブーストを含む。
【0021】本発明の重要な特徴は、通常、本発明の原
理を用いて生成された圧縮スピーチ信号を、本発明にし
たがって修正されていない従来のデコーダ(たとえば、
LPCまたはCELPデコーダ)を用いて復号化できる
ことである。さらに、本発明にしたがって修正されたデ
コーダを、本発明の原理を用いずに生成された圧縮スピ
ーチ信号を復号化するために使用することもできる。し
たがって本発明の技術を用いるシステムは、システム内
に普及している、信号の非互換性を気にすることなく、
経済的な方法で断片的に向上することができる。
【0022】本発明をその好適な実施形態とともに説明
してきたが、当業者であれば容易に理解されるように、
本発明の精神および範囲を逸脱せずに修正および変形を
用いることが可能であることを理解されたい。かかる修
正および変形は、本発明および添付した特許請求の範囲
の権限および範囲内にあると考えられる。
【図面の簡単な説明】
【図1】本発明の一実施形態によるスピーチ処理システ
ムを図示したブロック図である。
【図2】本発明の一実施形態によるスピーチ信号を処理
する方法を図示したフローチャートである。
【図3】本発明の一実施形態によるスピーチ信号の了解
度を高める際に使用される方法を図示したフローチャー
トの部分である。
【図4】本発明の一実施形態によるスピーチ信号の了解
度を高める際に使用される方法を図示したフローチャー
トの部分である。
【符号の説明】
10 スピーチ処理システム 12 入力ポート 14 出力ポート 16 アナログデジタルコンバータ 18 フレーム分離ユニット 20 フレーム分析ユニット 22 フレーム修正ユニット 24 圧縮ユニット
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 9/14 C

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 スピーチ信号を処理する方法であって、 処理されるスピーチ信号を受信するステップと、 前記スピーチ信号を多数のフレームに分割するステップ
    と、 前記分割するステップにおいて生成されたフレームを分
    析し、前記フレームに関連する音のタイプを判定するス
    テップと、 前記音のタイプに基づいて前記フレームを修正し、出力
    信号の了解度を高めるステップとを含む方法。
  2. 【請求項2】 前記分析するステップは、 前記フレームに対してスペクトル分析を行い、前記フレ
    ームのスペクトル内容を判定するステップと、 前記フレームのスペクトル内容を検査して、前記フレー
    ムが有声音または無声音を含んでいるか否かを判定する
    ステップとを含む、請求項1に記載の方法。
  3. 【請求項3】 前記分析するステップは、前記フレーム
    の振幅を判定し、前記フレームの振幅を先行するフレー
    ムの振幅と比較し、前記フレームが破裂音を含むか否か
    を判定するステップを含み、前記修正するステップは、
    前記フレームが破裂音を含むと判定された場合、前記フ
    レームの相対的な振幅をブーストするステップを含む、
    請求項1に記載の方法。
  4. 【請求項4】 前記音のタイプが破裂音である場合、先
    行するフレームの振幅を減少させるステップをさらに含
    む、請求項1に記載の方法。
  5. 【請求項5】 前記修正するステップは、前記フレーム
    に関連する前記音のタイプが無声の摩擦音を含む場合、
    前記フレームの振幅を増加させるステップを含む、請求
    項1に記載の方法。
  6. 【請求項6】 前記多数のフレームは時間に基づいたフ
    レームを含み、前記分析するステップは、取り囲むフレ
    ームに関連して前記フレームのそれぞれを分析し、前記
    修正するステップは、前記分析するステップの結果に基
    づいて、選択されたフレームの振幅を調節するステップ
    を含む、請求項1に記載の方法。
  7. 【請求項7】 スピーチ信号を処理するシステムであっ
    て、 時間に基づいたフレームに分割されるスピーチ信号を取
    得する手段と、 前記フレームのそれぞれに関連する音のタイプを判定す
    る手段と、 音のタイプに基づいて、選択されたフレームを修正し、
    信号了解度を高める手段とを含むシステム。
  8. 【請求項8】 前記判定する手段は、(a)フレームに
    対してスペクトル分析を行う手段、(b)隣接するフレ
    ームの振幅を比較する手段、又は(c)フレームが有声
    音または無声音を含むか否かを確認する手段のうちの1
    つを含む、請求項7に記載のシステム。
  9. 【請求項9】 前記修正する手段は、(a)他の音のタ
    イプよりも了解度が典型的に低い音のタイプを含むフレ
    ームの相対的な振幅をブーストする手段、(b)無声の
    破裂音を含むフレームの前記相対的な振幅をブーストす
    る手段、(c)無声の破裂音を含むフレームに先行する
    フレームの前記相対的な振幅を低減する手段のうちの1
    つを含む、請求項7に記載のシステム。
  10. 【請求項10】 処理装置において実行される際、請求
    項1ないし6のいずれか1項に記載の方法を前記処理装
    置に行わせるプログラム命令を含む、コンピュータ読み
    取り可能媒体。
JP2001165981A 2000-06-01 2001-06-01 デジタルに圧縮されたスピーチの了解度を向上させる方法および装置 Expired - Fee Related JP3875513B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/586,183 US6889186B1 (en) 2000-06-01 2000-06-01 Method and apparatus for improving the intelligibility of digitally compressed speech
US09/586183 2000-06-01

Publications (2)

Publication Number Publication Date
JP2002014689A true JP2002014689A (ja) 2002-01-18
JP3875513B2 JP3875513B2 (ja) 2007-01-31

Family

ID=24344649

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001165981A Expired - Fee Related JP3875513B2 (ja) 2000-06-01 2001-06-01 デジタルに圧縮されたスピーチの了解度を向上させる方法および装置

Country Status (4)

Country Link
US (1) US6889186B1 (ja)
EP (1) EP1168306A3 (ja)
JP (1) JP3875513B2 (ja)
CA (1) CA2343661C (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006011405A1 (ja) * 2004-07-28 2006-02-02 The University Of Tokushima デジタルフィルタリング方法及び装置
JP2006208820A (ja) * 2005-01-28 2006-08-10 Advanced Telecommunication Research Institute International 音声処理装置
JP2007511793A (ja) * 2003-11-14 2007-05-10 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号処理システム及び方法
JP2008070564A (ja) * 2006-09-13 2008-03-27 Fujitsu Ltd 音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法
JP2016018042A (ja) * 2014-07-07 2016-02-01 沖電気工業株式会社 音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器
JP2016209407A (ja) * 2015-05-12 2016-12-15 株式会社日立製作所 超音波診断装置

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
JP4178319B2 (ja) * 2002-09-13 2008-11-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理におけるフェーズ・アライメント
JP2004297273A (ja) * 2003-03-26 2004-10-21 Kenwood Corp 音声信号雑音除去装置、音声信号雑音除去方法及びプログラム
SG185134A1 (en) * 2003-05-28 2012-11-29 Dolby Lab Licensing Corp Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal
US7660715B1 (en) 2004-01-12 2010-02-09 Avaya Inc. Transparent monitoring and intervention to improve automatic adaptation of speech models
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
KR101261212B1 (ko) 2004-10-26 2013-05-07 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 신호 처리 방법 및 장치
US7892648B2 (en) * 2005-01-21 2011-02-22 International Business Machines Corporation SiCOH dielectric material with improved toughness and improved Si-C bonding
AU2006237133B2 (en) * 2005-04-18 2012-01-19 Basf Se Preparation containing at least one conazole fungicide a further fungicide and a stabilising copolymer
US7529670B1 (en) 2005-05-16 2009-05-05 Avaya Inc. Automatic speech recognition system for people with speech-affecting disabilities
US7653543B1 (en) 2006-03-24 2010-01-26 Avaya Inc. Automatic signal adjustment based on intelligibility
WO2007120452A1 (en) * 2006-04-04 2007-10-25 Dolby Laboratories Licensing Corporation Audio signal loudness measurement and modification in the mdct domain
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
EP2011234B1 (en) 2006-04-27 2010-12-29 Dolby Laboratories Licensing Corporation Audio gain control using specific-loudness-based auditory event detection
US8185383B2 (en) * 2006-07-24 2012-05-22 The Regents Of The University Of California Methods and apparatus for adapting speech coders to improve cochlear implant performance
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US7925508B1 (en) 2006-08-22 2011-04-12 Avaya Inc. Detection of extreme hypoglycemia or hyperglycemia based on automatic analysis of speech patterns
US7962342B1 (en) 2006-08-22 2011-06-14 Avaya Inc. Dynamic user interface for the temporarily impaired based on automatic analysis for speech patterns
RU2413357C2 (ru) 2006-10-20 2011-02-27 Долби Лэборетериз Лайсенсинг Корпорейшн Обработка динамических свойств аудио с использованием перенастройки
US8521314B2 (en) * 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
US7675411B1 (en) 2007-02-20 2010-03-09 Avaya Inc. Enhancing presence information through the addition of one or more of biotelemetry data and environmental data
US8041344B1 (en) 2007-06-26 2011-10-18 Avaya Inc. Cooling off period prior to sending dependent on user's state
ATE535906T1 (de) 2007-07-13 2011-12-15 Dolby Lab Licensing Corp Tonverarbeitung mittels auditorischer szenenanalyse und spektraler asymmetrie
US20090282228A1 (en) 2008-05-06 2009-11-12 Avaya Inc. Automated Selection of Computer Options
JP5239594B2 (ja) * 2008-07-30 2013-07-17 富士通株式会社 クリップ検出装置及び方法
US8401856B2 (en) 2010-05-17 2013-03-19 Avaya Inc. Automatic normalization of spoken syllable duration
US9082414B2 (en) * 2011-09-27 2015-07-14 General Motors Llc Correcting unintelligible synthesized speech
US9161136B2 (en) 2012-08-08 2015-10-13 Avaya Inc. Telecommunications methods and systems providing user specific audio optimization
US9031836B2 (en) 2012-08-08 2015-05-12 Avaya Inc. Method and apparatus for automatic communications system intelligibility testing and optimization
GB201316575D0 (en) * 2013-09-18 2013-10-30 Hellosoft Inc Voice data transmission with adaptive redundancy
US10176824B2 (en) 2014-03-04 2019-01-08 Indian Institute Of Technology Bombay Method and system for consonant-vowel ratio modification for improving speech perception
EP3038106B1 (en) * 2014-12-24 2017-10-18 Nxp B.V. Audio signal enhancement
KR102845224B1 (ko) 2019-12-09 2025-08-12 삼성전자주식회사 전자 장치 및 이의 제어 방법
JP2023543382A (ja) * 2020-08-12 2023-10-16 ドルビー・インターナショナル・アーベー 音声アーティキュレーション雑音事象の自動検出および減衰

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4454609A (en) 1981-10-05 1984-06-12 Signatron, Inc. Speech intelligibility enhancement
US4468804A (en) 1982-02-26 1984-08-28 Signatron, Inc. Speech enhancement techniques
EP0140249B1 (en) 1983-10-13 1988-08-10 Texas Instruments Incorporated Speech analysis/synthesis with energy normalization
US4696039A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with silence suppression
US4852170A (en) * 1986-12-18 1989-07-25 R & D Associates Real time computer speech recognition system
US5018200A (en) * 1988-09-21 1991-05-21 Nec Corporation Communication system capable of improving a speech quality by classifying speech signals
JPH075898A (ja) * 1992-04-28 1995-01-10 Technol Res Assoc Of Medical & Welfare Apparatus 音声信号処理装置と破裂性抽出装置
JPH10124089A (ja) * 1996-10-24 1998-05-15 Sony Corp 音声信号処理装置及び方法、並びに、音声帯域幅拡張装置及び方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007511793A (ja) * 2003-11-14 2007-05-10 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号処理システム及び方法
WO2006011405A1 (ja) * 2004-07-28 2006-02-02 The University Of Tokushima デジタルフィルタリング方法及び装置
US7890323B2 (en) 2004-07-28 2011-02-15 The University Of Tokushima Digital filtering method, digital filtering equipment, digital filtering program, and recording medium and recorded device which are readable on computer
JP2006208820A (ja) * 2005-01-28 2006-08-10 Advanced Telecommunication Research Institute International 音声処理装置
JP2008070564A (ja) * 2006-09-13 2008-03-27 Fujitsu Ltd 音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法
US8190432B2 (en) 2006-09-13 2012-05-29 Fujitsu Limited Speech enhancement apparatus, speech recording apparatus, speech enhancement program, speech recording program, speech enhancing method, and speech recording method
JP2016018042A (ja) * 2014-07-07 2016-02-01 沖電気工業株式会社 音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器
JP2016209407A (ja) * 2015-05-12 2016-12-15 株式会社日立製作所 超音波診断装置

Also Published As

Publication number Publication date
EP1168306A2 (en) 2002-01-02
EP1168306A3 (en) 2002-10-02
US6889186B1 (en) 2005-05-03
JP3875513B2 (ja) 2007-01-31
CA2343661A1 (en) 2001-12-01
CA2343661C (en) 2009-01-06

Similar Documents

Publication Publication Date Title
JP3875513B2 (ja) デジタルに圧縮されたスピーチの了解度を向上させる方法および装置
US8140326B2 (en) Systems and methods for reducing speech intelligibility while preserving environmental sounds
Krause et al. Acoustic properties of naturally produced clear speech at normal speaking rates
US8311842B2 (en) Method and apparatus for expanding bandwidth of voice signal
GB2327835A (en) Improving speech intelligibility in noisy enviromnment
US10176824B2 (en) Method and system for consonant-vowel ratio modification for improving speech perception
US6983242B1 (en) Method for robust classification in speech coding
EP2372707B1 (en) Adaptive spectral transformation for acoustic speech signals
CN108010512A (zh) 一种音效的获取方法及录音终端
JP2016540432A (ja) 基本周波数修正を用いた補聴装置
McLoughlin et al. Reconstruction of continuous voiced speech from whispers.
JPS60107700A (ja) エネルギ正規化および無声フレーム抑制機能を有する音声分析合成システムおよびその方法
JP2005157363A (ja) フォルマント帯域を利用したダイアログエンハンシング方法及び装置
JP2000152394A (ja) 軽度難聴者用補聴装置、軽度難聴者対応伝送システム、軽度難聴者対応記録再生装置、及び軽度難聴者対応再生装置
CN101281747A (zh) 基于声道参数的汉语耳语音声调识别方法
US8990092B2 (en) Voice recognition device
Amano-Kusumoto et al. A review of research on speech intelligibility and correlations with acoustic features
JP3354252B2 (ja) 音声認識装置
US5897614A (en) Method and apparatus for sibilant classification in a speech recognition system
JP2002169579A (ja) オーディオ信号への付加データ埋め込み装置及びオーディオ信号からの付加データ再生装置
JP2006154212A (ja) 音声評価方法および評価装置
JP2005202335A (ja) 音声処理方法と装置及びプログラム
WO2009055718A1 (en) Producing phonitos based on feature vectors
JP2905112B2 (ja) 環境音分析装置
Garcia et al. Oesophageal speech enhancement using poles stabilization and Kalman filtering

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051102

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051130

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060228

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061002

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061026

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091102

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131102

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees