JP2002014689A - デジタルに圧縮されたスピーチの了解度を向上させる方法および装置 - Google Patents
デジタルに圧縮されたスピーチの了解度を向上させる方法および装置Info
- Publication number
- JP2002014689A JP2002014689A JP2001165981A JP2001165981A JP2002014689A JP 2002014689 A JP2002014689 A JP 2002014689A JP 2001165981 A JP2001165981 A JP 2001165981A JP 2001165981 A JP2001165981 A JP 2001165981A JP 2002014689 A JP2002014689 A JP 2002014689A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- amplitude
- frames
- sound
- speech signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000003595 spectral effect Effects 0.000 claims abstract description 24
- 238000010183 spectrum analysis Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 14
- 230000001965 increasing effect Effects 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 abstract description 3
- 238000012986 modification Methods 0.000 description 15
- 230000004048 modification Effects 0.000 description 15
- 230000006835 compression Effects 0.000 description 7
- 238000007906 compression Methods 0.000 description 7
- 238000012937 correction Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 210000001260 vocal cord Anatomy 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 206010011878 Deafness Diseases 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000002542 deteriorative effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- XDDAORKBJWWYJS-UHFFFAOYSA-N glyphosate Chemical compound OC(=O)CNCP(O)(O)=O XDDAORKBJWWYJS-UHFFFAOYSA-N 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000010370 hearing loss Effects 0.000 description 1
- 231100000888 hearing loss Toxicity 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
チ信号の部分を識別し、適切な方法でこれらの部分を修
正する。 【解決手段】 スピーチ信号がデジタル化され、個々の
フレームに分割される(ステップ30)。スペクトル分
析が個々のフレームに対してそれぞれ行われ、フレーム
のスペクトル内容を判定する(ステップ32)。次に分
析され、各フレームに関連する音のタイプを判定する
(ステップ34)。フレームに関連する音のタイプに基
づいて、そのフレームに対応する情報を、出力信号の了
解度を向上させるために修正してもよい(ステップ3
6)。フレームに対応するスペクトル情報が、修正され
ていても修正されていなくても、圧縮スピーチ信号に収
集される(ステップ38)。この圧縮スピーチ信号は、
後に復号化され、高められた了解度を有する可聴スピー
チ信号を生成する。
Description
処理に関し、より具体的には、処理されたスピーチの了
解度を高める技術に関する。
なダイナミックレンジを有する。たとえば、いくつかの
子音の音(たとえば、無声子音P、T、S、F)の振幅
は、多くの場合、同じ文を話した場合の母音の音の振幅
よりも30dB小さい。したがって子音の音は、聴取者
のスピーチ検出しきい値より低くなることがあり、ひい
ては、スピーチの了解度を劣悪にする。この問題は、聴
取者が難聴である場合、聴取者が雑音の多い環境にいる
場合、または聴取者が低い信号強度を受け取る領域にい
る場合に悪化する。
の潜在的な非了解度は、信号に対してある形態の振幅圧
縮を使用することで克服された。たとえば、1つの従来
の方法では、信号の当初の大きさは維持しながら、新し
い信号のピークと新しい信号の低い部分との間の差が低
減されるように、スピーチ信号の振幅ピークがクリッピ
ングされ、その結果生じた信号が増幅された。しかしな
がら振幅圧縮は、多くの場合、結果生じた信号内に、信
号の高振幅成分を平滑にすることから生じる高調波ひず
みなどの他の形態のひずみをもたらす。さらに振幅圧縮
技術は、不適切な方法でいくつかの望ましくない低レベ
ル信号成分(たとえば、バックグラウンドノイズ)を増
幅する傾向があり、ひいては、結果生じた信号の品質を
劣悪にする。
術に関連する望ましくない効果を生じることなく、処理
されたスピーチの了解度を高めることのできる方法およ
び装置が必要とされている。
ピーチの了解度を大幅に高めることのできるシステムに
関する。本システムは、線形予測符号化(LPC)およ
び符号励振線形予測(CELP)などの特定の低ビット
レートのスピーチ符号化アルゴリズムにおいて一般的に
行われるように、まず、スピーチ信号をフレームまたは
セグメントに分割する。次いで本システムは、各フレー
ムのスペクトル内容を分析し、そのフレームに関連する
音のタイプを判定する。各フレームの分析は、一般的
に、対象のフレームを取り囲む1つまたは複数の他のフ
レームに関連して行われる。分析は、たとえば、フレー
ムに関連する音が母音の音であるか、有声の摩擦音であ
るか、または無声の破裂音であるかを判定する場合があ
る。
づいて、本システムは、修正によって了解度が高められ
ると考えられる場合にフレームを修正する。たとえば、
無声の破裂音は一般的に人間のスピーチ内の他の音より
も小さい振幅を有することが知られている。したがっ
て、無声の破裂音を含んでいると識別されたフレームの
振幅は、他のフレームに対してブーストされる。フレー
ムに関連する音のタイプに基づいてそのフレームを修正
することに加えて、本システムは、フレームに関連する
音のタイプに基づいて、その特定のフレームを取り囲む
フレームを修正してもよい。たとえば、対象のフレーム
が無声の破裂音を含んでいると識別される場合、この対
象のフレームに先行するフレームの振幅を低減し、破裂
音がスペクトル的に同様の破裂音と間違われないように
保証することができる。特定のフレーム内に含まれるス
ピーチのタイプに対するフレーム修正決定に基づくこと
によって、振幅に基づいた盲目的な信号修正(たとえ
ば、すべての低レベル信号をブーストすること)によっ
て生じる問題が回避される。すなわち本発明の原理は、
フレームが選択的かつ知的に修正され、高められた信号
了解度を実現することを可能にする。
了解度を大幅に高めることのできるシステムに関する。
本システムは、スピーチ信号の個々のフレームに関連す
る音のタイプを判定し、対応する音のタイプに基づいて
これらのフレームを修正する。1つの方法において、本
発明の原理は、フレームに基づいたスピーチのデジタル
化を行う、LCPおよびCELPアルゴリズムなどの周
知のスピーチ符号化アルゴリズムに対する改善形態とし
て実施される。本システムは、従来の振幅クリッピング
技術に多くの場合関連するひずみを生成することなく、
スピーチ信号の了解度を向上させることができる。本発
明の原理は、たとえばメッセージングシステム、IVR
アプリケーション、および無線電話システムを含む様々
なスピーチアプリケーションにおいて使用することがで
きる。本発明の原理は、たとえば補聴器および人工耳な
どの難聴を補助するように設計される装置においても実
施することができる。
チ処理システム10を図示するブロック図である。スピ
ーチ処理システム10は、入力ポート12でアナログス
ピーチ信号を受信し、この信号を出力ポート14で出力
される圧縮デジタルスピーチ信号に変換する。入力信号
に対して信号圧縮およびアナログデジタル変換機能を行
うことに加えて、システム10はまた、後の再生のため
に入力信号の了解度を高める。図示したように、スピー
チ処理システム10は、アナログデジタル(A/D)コ
ンバータ16、フレーム分離ユニット18、フレーム分
析ユニット20、フレーム修正ユニット22、及び圧縮
ユニット24を備える。図1において図示されるブロッ
クは、実際に機能的であり、別個のハードウェア素子に
必ずしも対応するわけではないことを理解されたい。一
実施形態において、たとえばスピーチ処理システム10
は、単一のデジタル処理装置内に実装される。しかしな
がら、ハードウェアの実施もまた可能である。
るアナログスピーチ信号は、まずA/Dコンバータ16
内でサンプリングかつデジタル化され、フレーム分離ユ
ニット18に分配するためのデジタル波形を生成する。
フレーム分離ユニット18は、デジタル波形を個々の時
間に基づいたフレームに分割するように動作する。好適
な方法において、これらのフレームは、それぞれ約20
〜25ミリ秒の長さである。フレーム分析ユニット20
は、フレーム分割ユニット18からフレームを受け取
り、個々のフレームそれぞれに対してスペクトル分析を
行い、フレームのスペクトル内容を判定する。次いでフ
レーム分析ユニット20は、各フレームのスペクトル情
報をフレーム修正ユニット22に転送する。フレーム修
正ユニット22は、スペクトル分析の結果を使用し、個
々のフレームそれぞれに関連する音のタイプ(スピーチ
のタイプ)を判定する。次いでフレーム修正ユニット2
2は、識別された音のタイプに基づいて、選択されたフ
レームを修正する。フレーム修正ユニット22は通常、
対象のフレームに対応するスペクトル情報と、対象のフ
レームを取り囲む1つまたは複数のフレームに対応する
スペクトル情報とを分析し、対象のフレームに関連する
音のタイプを判定する。
関連する音のタイプに基づいて選択されたフレームを修
正する規則のセットを含む。一実施形態において、フレ
ーム修正ユニット22はまた、対象のフレームに関連す
る音のタイプに基づいて、対象のフレームを取り囲むフ
レームを修正する規則を含む。フレーム修正ユニット2
2によって使用される規則は、システム10によって生
成される出力信号の了解度を増加させるように設計され
る。したがって修正は、人間の耳がこれらの音を他の類
似した音と区別できるようにする特定の音の特性を強調
するように意図されている。フレームの多くは、プログ
ラムされる特別な規則によっては、フレーム修正ユニッ
ト22によって修正されないままの場合がある。
情報は次に、すべてのフレームのスペクトル情報を収集
して出力ポート14で圧縮出力信号を生成するデータ収
集ユニット24に転送される。次いで圧縮出力信号は、
通信媒体を介して遠隔地に転送されるか、もしくは後の
復号化および再生のために格納されることができる。図
1のフレーム修正ユニット22の了解性を高める機能
を、代替的に(または任意選択的に)信号再生中の復号
化処理の一部として行うことができることを理解された
い。
形予測符号化(LPC)アルゴリズムおよび符号励振線
形予測(CELP)アルゴリズムなどの特定の周知のス
ピーチ符号化および/または復号化アルゴリズムに対す
る改善形態として実施される。実際本発明の原理は、フ
レームに基づいたスピーチデジタル化に基礎を置いた、
実質的に任意の符号化および復号化アルゴリズムととも
に使用することができる(すなわち、スピーチを個々の
時間に基づいたフレームに分割し、各フレームのスペク
トル内容をキャプチャーして、スピーチのデジタル表現
を生成する)。典型的には、これらのアルゴリズムは、
人間の声道生理学の数学モデルを利用して、全体的な振
幅などの人間のスピーチメカニズムの類比の点で各フレ
ームのスペクトル内容(フレームの音が有声であるかま
たは無声であるか、有声の場合は音のピッチ)を説明す
る。次いでこのスペクトル情報は、圧縮デジタルスピー
チ信号に収集される。本発明によって修正することがで
きる様々なスピーチデジタル化アルゴリズムのより詳細
な説明は、2000年にロンドンのTaylor & Francisに
よって出版され、Waldamar Karwowskiによって編集され
た、InternationalEncyclopedia of Ergonomics and Hu
man Factorsの中の、Paul Michaelisによる論文「Speec
h Digitization and Compression」において見いだすこ
とができる。
ゴリズム内で生成されたスペクトル情報(および他のス
ペクトル情報の場合もある)が、各フレームに関連する
音のタイプを判定するために使用される。了解度にとっ
てどの音のタイプが重要であるか、およびどの音のタイ
プが典型的により聞き取り難いかという知識が、了解度
を増加させるような方法で、フレーム情報を修正するた
めの規則を開発するために使用される。次いでその規則
は、判定された音のタイプに基づいて、選択されたフレ
ームのフレーム情報を修正するために使用される。各フ
レームのためのスペクトル情報は、修正されていても修
正されていなくても、従来の方法(たとえば、LPC、
CELP、または他の同様のアルゴリズムによって典型
的に使用される方法)で、圧縮スピーチ信号を開発する
ために使用される。
グスピーチ信号を処理する方法を図示するフローチャー
トである。まずスピーチ信号がデジタル化され、個々の
フレームに分割される(ステップ30)。次いで、スペ
クトル分析が個々のフレームに対してそれぞれ行われ、
フレームのスペクトル内容を判定する(ステップ3
2)。典型的には、音の振幅、ボイシング、ピッチ(も
しあれば)などのスペクトルパラメータが、スペクトル
分析中に測定される。フレームのスペクトル内容が次に
分析され、各フレームに関連する音のタイプを判定する
(ステップ34)。特定のフレームに関連する音のタイ
プを判定するために、多くの場合、特定のフレームを取
り囲む他のフレームのスペクトル内容が考慮される。フ
レームに関連する音のタイプに基づいて、そのフレーム
に対応する情報を、出力信号の了解度を向上させるため
に修正してもよい(ステップ36)。対象のフレームを
取り囲むフレームに対応する情報を、対象のフレームの
音のタイプに基づいて修正してもよい。典型的には、フ
レーム情報の修正は、対応するフレームの振幅のブース
トまたは低減を含む。しかしながら、他の修正技術もま
た可能である。たとえば、スペクトルフィルタリングを
決定する反射係数を、本発明によって修正することがで
きる。次いでフレームに対応するスペクトル情報が、修
正されていても修正されていなくても、圧縮スピーチ信
号に収集される(ステップ38)。この圧縮スピーチ信
号は、後に復号化され、高められた了解度を有する可聴
スピーチ信号を生成する。
よるスピーチ信号の了解度を高める際に使用される方法
を図示するフローチャートの部分である。本方法は、ス
ピーチ信号内の無声の摩擦音と、有声および無声の破裂
音とを識別し、スピーチ信号の対応するフレームの振幅
を調節して了解度を高めるように動作する。無声の摩擦
音および無声の破裂音は、スピーチ信号における他の音
よりも、スピーチ信号において典型的により小さい音量
の音である。さらにこれらの音は通常、基底をなすスピ
ーチの了解度にとって非常に重要である。有声のスピー
チ音は、息を吐きながら声帯を緊張させることによっ
て、すなわち音に声帯の震動によって生じる特定のピッ
チを与えることによって生成されるものである。したが
って有声スピーチ音のスペクトルは、基本的なピッチと
その高調波を含む。無声のスピーチ音は、声道における
可聴乱流によって生成されるものであり、声帯は弛緩し
たままである。無声のスピーチ信号のスペクトルは、典
型的に、ホワイトノイズのそれと同様である。
がまず受信され(ステップ50)、次いでデジタル化さ
れる(ステップ52)。次いでデジタル波形が、個々の
フレームに分離される(ステップ54)。好適な方法に
おいて、これらのフレームは、それぞれ約20〜25ミ
リ秒の長さである。次いでフレーム毎の分析が行われ、
振幅、ボイシング、ピッチおよびスペクトルフィルタリ
ングデータなどのフレームからのデータを抽出および符
号化する(ステップ56)。抽出されたデータが、フレ
ームが無声の摩擦音を含むと示す場合、フレームの振幅
は、結果生じるスピーチ信号における音の大きさが聴取
者の検出しきい値を超える尤度を増加させるように設計
された方法で増加する(ステップ58)。フレームの振
幅を、たとえば所定の利得値によって所定の振幅値まで
増加するか、あるいは振幅を、同じスピーチ信号内の他
のフレームの振幅に依存する量だけ増加させることがで
きる。摩擦音は、可聴乱流を生成する声道の狭窄部を通
して肺から空気を押し出すことによって生成される。無
声の摩擦音の例として、ファット(fat)の「f」、サ
ット(sat)の「s」、チャット(chat)の「ch」が
挙げられる。摩擦音は、多数のサンプル期間にわたって
振幅が比較的一定であることによって特徴づけられる。
したがって無声の摩擦音は、フレームが無声音に対応す
るという決定がなされた後に多数の連続的なフレームの
振幅を比較することによって識別することができる。
裂音の頭の成分であることを示す場合、有声の破裂音に
先行するフレームの振幅が低減される(ステップ6
0)。破裂音は、息を完全に止めた後に急に吐き出すこ
とによって生成される音である。したがって破裂音は、
スピーチ信号において振幅が急に下降した後、振幅が急
に上昇することによって特徴付けられる。有声の破裂音
の例として、ベイト(bait)の「b」、デート(date)
の「d」、ゲート(gate)の「g」が挙げられる。破裂
音は、スピーチ信号内の隣接するフレームの振幅を比較
することによって、信号内において識別される。有声の
破裂音に先行するフレームの振幅を低減させることによ
って、破裂音を特徴づける振幅の「スパイク」に強勢が
置かれ、その結果、了解度が高まる。
裂音の頭の成分であることを示す場合、無声の破裂音に
先行するフレームの振幅が低減され、無声の破裂音を含
むフレームの振幅が増加される(ステップ62)。無声
の破裂音に先行するフレームの振幅は、上述したように
低減され、破裂音の振幅の「スパイク」を強調する。無
声の破裂音の頭の成分を含むフレームの振幅が増加さ
れ、結果生じるスピーチ信号における音の大きさが聴取
者の検出しきい値を超える尤度を増加させる。
レーム毎の再構成が、たとえば振幅、ボイシング、ピッ
チ、スペクトルフィルタリングデータを用いて行われる
(ステップ64)。次いで個々のフレームが、完全なデ
ジタルシーケンスにつなぎ合わされる(ステップ6
6)。次いでデジタルアナログ変換が行われ、アナログ
出力信号を生成する(ステップ68)。図3および図4
に図示される方法は、リアルタイム了解度強化手順の一
部としてすべて一度に行うことができるか、あるいは、
異なる時間において多数の副次的な手順で行うことがで
きる。たとえば本方法が補聴器において実施される場
合、全体的な方法が使用され、補聴器をつけたユーザに
よって検出されるように、入力アナログ信号を強化され
た出力アナログスピーチ信号に変換する。代替的な実施
例において、ステップ50からステップ62をスピーチ
信号復号化手順の一部として行ってもよく、一方、ステ
ップ64からステップ68は、次のスピーチ信号復号化
手順の一部として行われる。別の代替的な実施例におい
て、ステップ50からステップ56は、スピーチ信号符
号化手順の一部として行われ、一方、ステップ58から
ステップ68は、次のスピーチ復号化手順の一部として
行われる。符号化手順と復号化手順との間の期間におい
て、スピーチ信号をメモリユニット内に格納するか、あ
るいは、通信チャネルを介して遠隔位置間で転送するこ
とができる。好適な実施例において、ステップ50から
ステップ56は、周知のLPCまたはCELP符号化技
術を用いて行われる。同様に、ステップ64からステッ
プ68は、周知のLPCまたはCELP復号化技術を用
いて行うことが好ましい。
理を、他の音のタイプの了解度を高めるために使用する
ことができる。特定の音のタイプが了解度の問題を表す
ことが判定されると、次に、どのようにしてその音のタ
イプをスピーチ信号のフレーム内で識別できるかが判定
される(たとえば、スペクトル分析技術の使用、および
隣接するフレーム間の比較を用いて)。次いで、圧縮信
号が後に復号化されて再生される場合、かかる音を含む
フレームが、音の了解度を高めるためにどのようにして
修正される必要があるかが判定される。他のタイプのフ
レーム修正も本発明により可能であるが(たとえば、ス
ペクトルフィルタリングを決定する反射係数に対する修
正)、典型的には、修正は、対応するフレームの振幅の
単純なブーストを含む。
理を用いて生成された圧縮スピーチ信号を、本発明にし
たがって修正されていない従来のデコーダ(たとえば、
LPCまたはCELPデコーダ)を用いて復号化できる
ことである。さらに、本発明にしたがって修正されたデ
コーダを、本発明の原理を用いずに生成された圧縮スピ
ーチ信号を復号化するために使用することもできる。し
たがって本発明の技術を用いるシステムは、システム内
に普及している、信号の非互換性を気にすることなく、
経済的な方法で断片的に向上することができる。
してきたが、当業者であれば容易に理解されるように、
本発明の精神および範囲を逸脱せずに修正および変形を
用いることが可能であることを理解されたい。かかる修
正および変形は、本発明および添付した特許請求の範囲
の権限および範囲内にあると考えられる。
ムを図示したブロック図である。
する方法を図示したフローチャートである。
度を高める際に使用される方法を図示したフローチャー
トの部分である。
度を高める際に使用される方法を図示したフローチャー
トの部分である。
Claims (10)
- 【請求項1】 スピーチ信号を処理する方法であって、 処理されるスピーチ信号を受信するステップと、 前記スピーチ信号を多数のフレームに分割するステップ
と、 前記分割するステップにおいて生成されたフレームを分
析し、前記フレームに関連する音のタイプを判定するス
テップと、 前記音のタイプに基づいて前記フレームを修正し、出力
信号の了解度を高めるステップとを含む方法。 - 【請求項2】 前記分析するステップは、 前記フレームに対してスペクトル分析を行い、前記フレ
ームのスペクトル内容を判定するステップと、 前記フレームのスペクトル内容を検査して、前記フレー
ムが有声音または無声音を含んでいるか否かを判定する
ステップとを含む、請求項1に記載の方法。 - 【請求項3】 前記分析するステップは、前記フレーム
の振幅を判定し、前記フレームの振幅を先行するフレー
ムの振幅と比較し、前記フレームが破裂音を含むか否か
を判定するステップを含み、前記修正するステップは、
前記フレームが破裂音を含むと判定された場合、前記フ
レームの相対的な振幅をブーストするステップを含む、
請求項1に記載の方法。 - 【請求項4】 前記音のタイプが破裂音である場合、先
行するフレームの振幅を減少させるステップをさらに含
む、請求項1に記載の方法。 - 【請求項5】 前記修正するステップは、前記フレーム
に関連する前記音のタイプが無声の摩擦音を含む場合、
前記フレームの振幅を増加させるステップを含む、請求
項1に記載の方法。 - 【請求項6】 前記多数のフレームは時間に基づいたフ
レームを含み、前記分析するステップは、取り囲むフレ
ームに関連して前記フレームのそれぞれを分析し、前記
修正するステップは、前記分析するステップの結果に基
づいて、選択されたフレームの振幅を調節するステップ
を含む、請求項1に記載の方法。 - 【請求項7】 スピーチ信号を処理するシステムであっ
て、 時間に基づいたフレームに分割されるスピーチ信号を取
得する手段と、 前記フレームのそれぞれに関連する音のタイプを判定す
る手段と、 音のタイプに基づいて、選択されたフレームを修正し、
信号了解度を高める手段とを含むシステム。 - 【請求項8】 前記判定する手段は、(a)フレームに
対してスペクトル分析を行う手段、(b)隣接するフレ
ームの振幅を比較する手段、又は(c)フレームが有声
音または無声音を含むか否かを確認する手段のうちの1
つを含む、請求項7に記載のシステム。 - 【請求項9】 前記修正する手段は、(a)他の音のタ
イプよりも了解度が典型的に低い音のタイプを含むフレ
ームの相対的な振幅をブーストする手段、(b)無声の
破裂音を含むフレームの前記相対的な振幅をブーストす
る手段、(c)無声の破裂音を含むフレームに先行する
フレームの前記相対的な振幅を低減する手段のうちの1
つを含む、請求項7に記載のシステム。 - 【請求項10】 処理装置において実行される際、請求
項1ないし6のいずれか1項に記載の方法を前記処理装
置に行わせるプログラム命令を含む、コンピュータ読み
取り可能媒体。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US09/586,183 US6889186B1 (en) | 2000-06-01 | 2000-06-01 | Method and apparatus for improving the intelligibility of digitally compressed speech |
| US09/586183 | 2000-06-01 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2002014689A true JP2002014689A (ja) | 2002-01-18 |
| JP3875513B2 JP3875513B2 (ja) | 2007-01-31 |
Family
ID=24344649
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2001165981A Expired - Fee Related JP3875513B2 (ja) | 2000-06-01 | 2001-06-01 | デジタルに圧縮されたスピーチの了解度を向上させる方法および装置 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US6889186B1 (ja) |
| EP (1) | EP1168306A3 (ja) |
| JP (1) | JP3875513B2 (ja) |
| CA (1) | CA2343661C (ja) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2006011405A1 (ja) * | 2004-07-28 | 2006-02-02 | The University Of Tokushima | デジタルフィルタリング方法及び装置 |
| JP2006208820A (ja) * | 2005-01-28 | 2006-08-10 | Advanced Telecommunication Research Institute International | 音声処理装置 |
| JP2007511793A (ja) * | 2003-11-14 | 2007-05-10 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ信号処理システム及び方法 |
| JP2008070564A (ja) * | 2006-09-13 | 2008-03-27 | Fujitsu Ltd | 音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法 |
| JP2016018042A (ja) * | 2014-07-07 | 2016-02-01 | 沖電気工業株式会社 | 音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器 |
| JP2016209407A (ja) * | 2015-05-12 | 2016-12-15 | 株式会社日立製作所 | 超音波診断装置 |
Families Citing this family (34)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7454331B2 (en) * | 2002-08-30 | 2008-11-18 | Dolby Laboratories Licensing Corporation | Controlling loudness of speech in signals that contain speech and other types of audio material |
| JP4178319B2 (ja) * | 2002-09-13 | 2008-11-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理におけるフェーズ・アライメント |
| JP2004297273A (ja) * | 2003-03-26 | 2004-10-21 | Kenwood Corp | 音声信号雑音除去装置、音声信号雑音除去方法及びプログラム |
| SG185134A1 (en) * | 2003-05-28 | 2012-11-29 | Dolby Lab Licensing Corp | Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal |
| US7660715B1 (en) | 2004-01-12 | 2010-02-09 | Avaya Inc. | Transparent monitoring and intervention to improve automatic adaptation of speech models |
| US8199933B2 (en) | 2004-10-26 | 2012-06-12 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
| KR101261212B1 (ko) | 2004-10-26 | 2013-05-07 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 오디오 신호 처리 방법 및 장치 |
| US7892648B2 (en) * | 2005-01-21 | 2011-02-22 | International Business Machines Corporation | SiCOH dielectric material with improved toughness and improved Si-C bonding |
| AU2006237133B2 (en) * | 2005-04-18 | 2012-01-19 | Basf Se | Preparation containing at least one conazole fungicide a further fungicide and a stabilising copolymer |
| US7529670B1 (en) | 2005-05-16 | 2009-05-05 | Avaya Inc. | Automatic speech recognition system for people with speech-affecting disabilities |
| US7653543B1 (en) | 2006-03-24 | 2010-01-26 | Avaya Inc. | Automatic signal adjustment based on intelligibility |
| WO2007120452A1 (en) * | 2006-04-04 | 2007-10-25 | Dolby Laboratories Licensing Corporation | Audio signal loudness measurement and modification in the mdct domain |
| TWI517562B (zh) | 2006-04-04 | 2016-01-11 | 杜比實驗室特許公司 | 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式 |
| EP2011234B1 (en) | 2006-04-27 | 2010-12-29 | Dolby Laboratories Licensing Corporation | Audio gain control using specific-loudness-based auditory event detection |
| US8185383B2 (en) * | 2006-07-24 | 2012-05-22 | The Regents Of The University Of California | Methods and apparatus for adapting speech coders to improve cochlear implant performance |
| US8725499B2 (en) * | 2006-07-31 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, and apparatus for signal change detection |
| US7925508B1 (en) | 2006-08-22 | 2011-04-12 | Avaya Inc. | Detection of extreme hypoglycemia or hyperglycemia based on automatic analysis of speech patterns |
| US7962342B1 (en) | 2006-08-22 | 2011-06-14 | Avaya Inc. | Dynamic user interface for the temporarily impaired based on automatic analysis for speech patterns |
| RU2413357C2 (ru) | 2006-10-20 | 2011-02-27 | Долби Лэборетериз Лайсенсинг Корпорейшн | Обработка динамических свойств аудио с использованием перенастройки |
| US8521314B2 (en) * | 2006-11-01 | 2013-08-27 | Dolby Laboratories Licensing Corporation | Hierarchical control path with constraints for audio dynamics processing |
| US7675411B1 (en) | 2007-02-20 | 2010-03-09 | Avaya Inc. | Enhancing presence information through the addition of one or more of biotelemetry data and environmental data |
| US8041344B1 (en) | 2007-06-26 | 2011-10-18 | Avaya Inc. | Cooling off period prior to sending dependent on user's state |
| ATE535906T1 (de) | 2007-07-13 | 2011-12-15 | Dolby Lab Licensing Corp | Tonverarbeitung mittels auditorischer szenenanalyse und spektraler asymmetrie |
| US20090282228A1 (en) | 2008-05-06 | 2009-11-12 | Avaya Inc. | Automated Selection of Computer Options |
| JP5239594B2 (ja) * | 2008-07-30 | 2013-07-17 | 富士通株式会社 | クリップ検出装置及び方法 |
| US8401856B2 (en) | 2010-05-17 | 2013-03-19 | Avaya Inc. | Automatic normalization of spoken syllable duration |
| US9082414B2 (en) * | 2011-09-27 | 2015-07-14 | General Motors Llc | Correcting unintelligible synthesized speech |
| US9161136B2 (en) | 2012-08-08 | 2015-10-13 | Avaya Inc. | Telecommunications methods and systems providing user specific audio optimization |
| US9031836B2 (en) | 2012-08-08 | 2015-05-12 | Avaya Inc. | Method and apparatus for automatic communications system intelligibility testing and optimization |
| GB201316575D0 (en) * | 2013-09-18 | 2013-10-30 | Hellosoft Inc | Voice data transmission with adaptive redundancy |
| US10176824B2 (en) | 2014-03-04 | 2019-01-08 | Indian Institute Of Technology Bombay | Method and system for consonant-vowel ratio modification for improving speech perception |
| EP3038106B1 (en) * | 2014-12-24 | 2017-10-18 | Nxp B.V. | Audio signal enhancement |
| KR102845224B1 (ko) | 2019-12-09 | 2025-08-12 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
| JP2023543382A (ja) * | 2020-08-12 | 2023-10-16 | ドルビー・インターナショナル・アーベー | 音声アーティキュレーション雑音事象の自動検出および減衰 |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4454609A (en) | 1981-10-05 | 1984-06-12 | Signatron, Inc. | Speech intelligibility enhancement |
| US4468804A (en) | 1982-02-26 | 1984-08-28 | Signatron, Inc. | Speech enhancement techniques |
| EP0140249B1 (en) | 1983-10-13 | 1988-08-10 | Texas Instruments Incorporated | Speech analysis/synthesis with energy normalization |
| US4696039A (en) * | 1983-10-13 | 1987-09-22 | Texas Instruments Incorporated | Speech analysis/synthesis system with silence suppression |
| US4852170A (en) * | 1986-12-18 | 1989-07-25 | R & D Associates | Real time computer speech recognition system |
| US5018200A (en) * | 1988-09-21 | 1991-05-21 | Nec Corporation | Communication system capable of improving a speech quality by classifying speech signals |
| JPH075898A (ja) * | 1992-04-28 | 1995-01-10 | Technol Res Assoc Of Medical & Welfare Apparatus | 音声信号処理装置と破裂性抽出装置 |
| JPH10124089A (ja) * | 1996-10-24 | 1998-05-15 | Sony Corp | 音声信号処理装置及び方法、並びに、音声帯域幅拡張装置及び方法 |
-
2000
- 2000-06-01 US US09/586,183 patent/US6889186B1/en not_active Expired - Lifetime
-
2001
- 2001-04-10 CA CA002343661A patent/CA2343661C/en not_active Expired - Fee Related
- 2001-05-16 EP EP01304339A patent/EP1168306A3/en not_active Withdrawn
- 2001-06-01 JP JP2001165981A patent/JP3875513B2/ja not_active Expired - Fee Related
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007511793A (ja) * | 2003-11-14 | 2007-05-10 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ信号処理システム及び方法 |
| WO2006011405A1 (ja) * | 2004-07-28 | 2006-02-02 | The University Of Tokushima | デジタルフィルタリング方法及び装置 |
| US7890323B2 (en) | 2004-07-28 | 2011-02-15 | The University Of Tokushima | Digital filtering method, digital filtering equipment, digital filtering program, and recording medium and recorded device which are readable on computer |
| JP2006208820A (ja) * | 2005-01-28 | 2006-08-10 | Advanced Telecommunication Research Institute International | 音声処理装置 |
| JP2008070564A (ja) * | 2006-09-13 | 2008-03-27 | Fujitsu Ltd | 音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法 |
| US8190432B2 (en) | 2006-09-13 | 2012-05-29 | Fujitsu Limited | Speech enhancement apparatus, speech recording apparatus, speech enhancement program, speech recording program, speech enhancing method, and speech recording method |
| JP2016018042A (ja) * | 2014-07-07 | 2016-02-01 | 沖電気工業株式会社 | 音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器 |
| JP2016209407A (ja) * | 2015-05-12 | 2016-12-15 | 株式会社日立製作所 | 超音波診断装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| EP1168306A2 (en) | 2002-01-02 |
| EP1168306A3 (en) | 2002-10-02 |
| US6889186B1 (en) | 2005-05-03 |
| JP3875513B2 (ja) | 2007-01-31 |
| CA2343661A1 (en) | 2001-12-01 |
| CA2343661C (en) | 2009-01-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3875513B2 (ja) | デジタルに圧縮されたスピーチの了解度を向上させる方法および装置 | |
| US8140326B2 (en) | Systems and methods for reducing speech intelligibility while preserving environmental sounds | |
| Krause et al. | Acoustic properties of naturally produced clear speech at normal speaking rates | |
| US8311842B2 (en) | Method and apparatus for expanding bandwidth of voice signal | |
| GB2327835A (en) | Improving speech intelligibility in noisy enviromnment | |
| US10176824B2 (en) | Method and system for consonant-vowel ratio modification for improving speech perception | |
| US6983242B1 (en) | Method for robust classification in speech coding | |
| EP2372707B1 (en) | Adaptive spectral transformation for acoustic speech signals | |
| CN108010512A (zh) | 一种音效的获取方法及录音终端 | |
| JP2016540432A (ja) | 基本周波数修正を用いた補聴装置 | |
| McLoughlin et al. | Reconstruction of continuous voiced speech from whispers. | |
| JPS60107700A (ja) | エネルギ正規化および無声フレーム抑制機能を有する音声分析合成システムおよびその方法 | |
| JP2005157363A (ja) | フォルマント帯域を利用したダイアログエンハンシング方法及び装置 | |
| JP2000152394A (ja) | 軽度難聴者用補聴装置、軽度難聴者対応伝送システム、軽度難聴者対応記録再生装置、及び軽度難聴者対応再生装置 | |
| CN101281747A (zh) | 基于声道参数的汉语耳语音声调识别方法 | |
| US8990092B2 (en) | Voice recognition device | |
| Amano-Kusumoto et al. | A review of research on speech intelligibility and correlations with acoustic features | |
| JP3354252B2 (ja) | 音声認識装置 | |
| US5897614A (en) | Method and apparatus for sibilant classification in a speech recognition system | |
| JP2002169579A (ja) | オーディオ信号への付加データ埋め込み装置及びオーディオ信号からの付加データ再生装置 | |
| JP2006154212A (ja) | 音声評価方法および評価装置 | |
| JP2005202335A (ja) | 音声処理方法と装置及びプログラム | |
| WO2009055718A1 (en) | Producing phonitos based on feature vectors | |
| JP2905112B2 (ja) | 環境音分析装置 | |
| Garcia et al. | Oesophageal speech enhancement using poles stabilization and Kalman filtering |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050802 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051102 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051130 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20060228 |
|
| A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20060303 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060519 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060828 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060831 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061002 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061026 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091102 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101102 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111102 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121102 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121102 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131102 Year of fee payment: 7 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |