JP2002014689A

JP2002014689A - デジタルに圧縮されたスピーチの了解度を向上させる方法および装置

Info

Publication number: JP2002014689A
Application number: JP2001165981A
Authority: JP
Inventors: Paul Roller Michaelis; ローラーミッシェリスポール
Original assignee: Avaya Technology LLC
Current assignee: Avaya Technology LLC
Priority date: 2000-06-01
Filing date: 2001-06-01
Publication date: 2002-01-18
Anticipated expiration: 2021-06-01
Also published as: EP1168306A2; EP1168306A3; US6889186B1; JP3875513B2; CA2343661A1; CA2343661C

Abstract

(57)【要約】【課題】了解度の問題を典型的に表す音を含むスピー
チ信号の部分を識別し、適切な方法でこれらの部分を修
正する。【解決手段】スピーチ信号がデジタル化され、個々の
フレームに分割される（ステップ３０）。スペクトル分
析が個々のフレームに対してそれぞれ行われ、フレーム
のスペクトル内容を判定する（ステップ３２）。次に分
析され、各フレームに関連する音のタイプを判定する
（ステップ３４）。フレームに関連する音のタイプに基
づいて、そのフレームに対応する情報を、出力信号の了
解度を向上させるために修正してもよい（ステップ３
６）。フレームに対応するスペクトル情報が、修正され
ていても修正されていなくても、圧縮スピーチ信号に収
集される（ステップ３８）。この圧縮スピーチ信号は、
後に復号化され、高められた了解度を有する可聴スピー
チ信号を生成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、包括的にスピーチ
処理に関し、より具体的には、処理されたスピーチの了
解度を高める技術に関する。

【０００２】

【従来の技術】人間のスピーチは、一般的に比較的大き
なダイナミックレンジを有する。たとえば、いくつかの
子音の音（たとえば、無声子音Ｐ、Ｔ、Ｓ、Ｆ）の振幅
は、多くの場合、同じ文を話した場合の母音の音の振幅
よりも３０ｄＢ小さい。したがって子音の音は、聴取者
のスピーチ検出しきい値より低くなることがあり、ひい
ては、スピーチの了解度を劣悪にする。この問題は、聴
取者が難聴である場合、聴取者が雑音の多い環境にいる
場合、または聴取者が低い信号強度を受け取る領域にい
る場合に悪化する。

【０００３】伝統的に、スピーチ信号における特定の音
の潜在的な非了解度は、信号に対してある形態の振幅圧
縮を使用することで克服された。たとえば、１つの従来
の方法では、信号の当初の大きさは維持しながら、新し
い信号のピークと新しい信号の低い部分との間の差が低
減されるように、スピーチ信号の振幅ピークがクリッピ
ングされ、その結果生じた信号が増幅された。しかしな
がら振幅圧縮は、多くの場合、結果生じた信号内に、信
号の高振幅成分を平滑にすることから生じる高調波ひず
みなどの他の形態のひずみをもたらす。さらに振幅圧縮
技術は、不適切な方法でいくつかの望ましくない低レベ
ル信号成分（たとえば、バックグラウンドノイズ）を増
幅する傾向があり、ひいては、結果生じた信号の品質を
劣悪にする。

【０００４】

【発明が解決しようとする課題】したがって、従来の技
術に関連する望ましくない効果を生じることなく、処理
されたスピーチの了解度を高めることのできる方法およ
び装置が必要とされている。

【０００５】

【課題を解決するための手段】本発明は、処理されたス
ピーチの了解度を大幅に高めることのできるシステムに
関する。本システムは、線形予測符号化（ＬＰＣ）およ
び符号励振線形予測（ＣＥＬＰ）などの特定の低ビット
レートのスピーチ符号化アルゴリズムにおいて一般的に
行われるように、まず、スピーチ信号をフレームまたは
セグメントに分割する。次いで本システムは、各フレー
ムのスペクトル内容を分析し、そのフレームに関連する
音のタイプを判定する。各フレームの分析は、一般的
に、対象のフレームを取り囲む１つまたは複数の他のフ
レームに関連して行われる。分析は、たとえば、フレー
ムに関連する音が母音の音であるか、有声の摩擦音であ
るか、または無声の破裂音であるかを判定する場合があ
る。

【０００６】特定のフレームに関連する音のタイプに基
づいて、本システムは、修正によって了解度が高められ
ると考えられる場合にフレームを修正する。たとえば、
無声の破裂音は一般的に人間のスピーチ内の他の音より
も小さい振幅を有することが知られている。したがっ
て、無声の破裂音を含んでいると識別されたフレームの
振幅は、他のフレームに対してブーストされる。フレー
ムに関連する音のタイプに基づいてそのフレームを修正
することに加えて、本システムは、フレームに関連する
音のタイプに基づいて、その特定のフレームを取り囲む
フレームを修正してもよい。たとえば、対象のフレーム
が無声の破裂音を含んでいると識別される場合、この対
象のフレームに先行するフレームの振幅を低減し、破裂
音がスペクトル的に同様の破裂音と間違われないように
保証することができる。特定のフレーム内に含まれるス
ピーチのタイプに対するフレーム修正決定に基づくこと
によって、振幅に基づいた盲目的な信号修正（たとえ
ば、すべての低レベル信号をブーストすること）によっ
て生じる問題が回避される。すなわち本発明の原理は、
フレームが選択的かつ知的に修正され、高められた信号
了解度を実現することを可能にする。

【０００７】

【発明の実施の形態】本発明は、処理されたスピーチの
了解度を大幅に高めることのできるシステムに関する。
本システムは、スピーチ信号の個々のフレームに関連す
る音のタイプを判定し、対応する音のタイプに基づいて
これらのフレームを修正する。１つの方法において、本
発明の原理は、フレームに基づいたスピーチのデジタル
化を行う、ＬＣＰおよびＣＥＬＰアルゴリズムなどの周
知のスピーチ符号化アルゴリズムに対する改善形態とし
て実施される。本システムは、従来の振幅クリッピング
技術に多くの場合関連するひずみを生成することなく、
スピーチ信号の了解度を向上させることができる。本発
明の原理は、たとえばメッセージングシステム、ＩＶＲ
アプリケーション、および無線電話システムを含む様々
なスピーチアプリケーションにおいて使用することがで
きる。本発明の原理は、たとえば補聴器および人工耳な
どの難聴を補助するように設計される装置においても実
施することができる。

【０００８】図１は、本発明の一実施形態によるスピー
チ処理システム１０を図示するブロック図である。スピ
ーチ処理システム１０は、入力ポート１２でアナログス
ピーチ信号を受信し、この信号を出力ポート１４で出力
される圧縮デジタルスピーチ信号に変換する。入力信号
に対して信号圧縮およびアナログデジタル変換機能を行
うことに加えて、システム１０はまた、後の再生のため
に入力信号の了解度を高める。図示したように、スピー
チ処理システム１０は、アナログデジタル（Ａ／Ｄ）コ
ンバータ１６、フレーム分離ユニット１８、フレーム分
析ユニット２０、フレーム修正ユニット２２、及び圧縮
ユニット２４を備える。図１において図示されるブロッ
クは、実際に機能的であり、別個のハードウェア素子に
必ずしも対応するわけではないことを理解されたい。一
実施形態において、たとえばスピーチ処理システム１０
は、単一のデジタル処理装置内に実装される。しかしな
がら、ハードウェアの実施もまた可能である。

【０００９】図１を参照すると、ポート１２で受信され
るアナログスピーチ信号は、まずＡ／Ｄコンバータ１６
内でサンプリングかつデジタル化され、フレーム分離ユ
ニット１８に分配するためのデジタル波形を生成する。
フレーム分離ユニット１８は、デジタル波形を個々の時
間に基づいたフレームに分割するように動作する。好適
な方法において、これらのフレームは、それぞれ約２０
〜２５ミリ秒の長さである。フレーム分析ユニット２０
は、フレーム分割ユニット１８からフレームを受け取
り、個々のフレームそれぞれに対してスペクトル分析を
行い、フレームのスペクトル内容を判定する。次いでフ
レーム分析ユニット２０は、各フレームのスペクトル情
報をフレーム修正ユニット２２に転送する。フレーム修
正ユニット２２は、スペクトル分析の結果を使用し、個
々のフレームそれぞれに関連する音のタイプ（スピーチ
のタイプ）を判定する。次いでフレーム修正ユニット２
２は、識別された音のタイプに基づいて、選択されたフ
レームを修正する。フレーム修正ユニット２２は通常、
対象のフレームに対応するスペクトル情報と、対象のフ
レームを取り囲む１つまたは複数のフレームに対応する
スペクトル情報とを分析し、対象のフレームに関連する
音のタイプを判定する。

【００１０】フレーム修正ユニット２２は、フレームに
関連する音のタイプに基づいて選択されたフレームを修
正する規則のセットを含む。一実施形態において、フレ
ーム修正ユニット２２はまた、対象のフレームに関連す
る音のタイプに基づいて、対象のフレームを取り囲むフ
レームを修正する規則を含む。フレーム修正ユニット２
２によって使用される規則は、システム１０によって生
成される出力信号の了解度を増加させるように設計され
る。したがって修正は、人間の耳がこれらの音を他の類
似した音と区別できるようにする特定の音の特性を強調
するように意図されている。フレームの多くは、プログ
ラムされる特別な規則によっては、フレーム修正ユニッ
ト２２によって修正されないままの場合がある。

【００１１】修正された、および修正されないフレーム
情報は次に、すべてのフレームのスペクトル情報を収集
して出力ポート１４で圧縮出力信号を生成するデータ収
集ユニット２４に転送される。次いで圧縮出力信号は、
通信媒体を介して遠隔地に転送されるか、もしくは後の
復号化および再生のために格納されることができる。図
１のフレーム修正ユニット２２の了解性を高める機能
を、代替的に（または任意選択的に）信号再生中の復号
化処理の一部として行うことができることを理解された
い。

【００１２】一実施形態において、本発明の原理は、線
形予測符号化（ＬＰＣ）アルゴリズムおよび符号励振線
形予測（ＣＥＬＰ）アルゴリズムなどの特定の周知のス
ピーチ符号化および／または復号化アルゴリズムに対す
る改善形態として実施される。実際本発明の原理は、フ
レームに基づいたスピーチデジタル化に基礎を置いた、
実質的に任意の符号化および復号化アルゴリズムととも
に使用することができる（すなわち、スピーチを個々の
時間に基づいたフレームに分割し、各フレームのスペク
トル内容をキャプチャーして、スピーチのデジタル表現
を生成する）。典型的には、これらのアルゴリズムは、
人間の声道生理学の数学モデルを利用して、全体的な振
幅などの人間のスピーチメカニズムの類比の点で各フレ
ームのスペクトル内容（フレームの音が有声であるかま
たは無声であるか、有声の場合は音のピッチ）を説明す
る。次いでこのスペクトル情報は、圧縮デジタルスピー
チ信号に収集される。本発明によって修正することがで
きる様々なスピーチデジタル化アルゴリズムのより詳細
な説明は、２０００年にロンドンのTaylor & Francisに
よって出版され、Waldamar Karwowskiによって編集され
た、InternationalEncyclopedia of Ergonomics and Hu
man Factorsの中の、Paul Michaelisによる論文「Speec
h Digitization and Compression」において見いだすこ
とができる。

【００１３】本発明の一実施形態によると、かかるアル
ゴリズム内で生成されたスペクトル情報（および他のス
ペクトル情報の場合もある）が、各フレームに関連する
音のタイプを判定するために使用される。了解度にとっ
てどの音のタイプが重要であるか、およびどの音のタイ
プが典型的により聞き取り難いかという知識が、了解度
を増加させるような方法で、フレーム情報を修正するた
めの規則を開発するために使用される。次いでその規則
は、判定された音のタイプに基づいて、選択されたフレ
ームのフレーム情報を修正するために使用される。各フ
レームのためのスペクトル情報は、修正されていても修
正されていなくても、従来の方法（たとえば、ＬＰＣ、
ＣＥＬＰ、または他の同様のアルゴリズムによって典型
的に使用される方法）で、圧縮スピーチ信号を開発する
ために使用される。

【００１４】図２は、本発明の一実施形態によるアナロ
グスピーチ信号を処理する方法を図示するフローチャー
トである。まずスピーチ信号がデジタル化され、個々の
フレームに分割される（ステップ３０）。次いで、スペ
クトル分析が個々のフレームに対してそれぞれ行われ、
フレームのスペクトル内容を判定する（ステップ３
２）。典型的には、音の振幅、ボイシング、ピッチ（も
しあれば）などのスペクトルパラメータが、スペクトル
分析中に測定される。フレームのスペクトル内容が次に
分析され、各フレームに関連する音のタイプを判定する
（ステップ３４）。特定のフレームに関連する音のタイ
プを判定するために、多くの場合、特定のフレームを取
り囲む他のフレームのスペクトル内容が考慮される。フ
レームに関連する音のタイプに基づいて、そのフレーム
に対応する情報を、出力信号の了解度を向上させるため
に修正してもよい（ステップ３６）。対象のフレームを
取り囲むフレームに対応する情報を、対象のフレームの
音のタイプに基づいて修正してもよい。典型的には、フ
レーム情報の修正は、対応するフレームの振幅のブース
トまたは低減を含む。しかしながら、他の修正技術もま
た可能である。たとえば、スペクトルフィルタリングを
決定する反射係数を、本発明によって修正することがで
きる。次いでフレームに対応するスペクトル情報が、修
正されていても修正されていなくても、圧縮スピーチ信
号に収集される（ステップ３８）。この圧縮スピーチ信
号は、後に復号化され、高められた了解度を有する可聴
スピーチ信号を生成する。

【００１５】図３および図４は、本発明の一実施形態に
よるスピーチ信号の了解度を高める際に使用される方法
を図示するフローチャートの部分である。本方法は、ス
ピーチ信号内の無声の摩擦音と、有声および無声の破裂
音とを識別し、スピーチ信号の対応するフレームの振幅
を調節して了解度を高めるように動作する。無声の摩擦
音および無声の破裂音は、スピーチ信号における他の音
よりも、スピーチ信号において典型的により小さい音量
の音である。さらにこれらの音は通常、基底をなすスピ
ーチの了解度にとって非常に重要である。有声のスピー
チ音は、息を吐きながら声帯を緊張させることによっ
て、すなわち音に声帯の震動によって生じる特定のピッ
チを与えることによって生成されるものである。したが
って有声スピーチ音のスペクトルは、基本的なピッチと
その高調波を含む。無声のスピーチ音は、声道における
可聴乱流によって生成されるものであり、声帯は弛緩し
たままである。無声のスピーチ信号のスペクトルは、典
型的に、ホワイトノイズのそれと同様である。

【００１６】図３を参照すると、アナログスピーチ信号
がまず受信され（ステップ５０）、次いでデジタル化さ
れる（ステップ５２）。次いでデジタル波形が、個々の
フレームに分離される（ステップ５４）。好適な方法に
おいて、これらのフレームは、それぞれ約２０〜２５ミ
リ秒の長さである。次いでフレーム毎の分析が行われ、
振幅、ボイシング、ピッチおよびスペクトルフィルタリ
ングデータなどのフレームからのデータを抽出および符
号化する（ステップ５６）。抽出されたデータが、フレ
ームが無声の摩擦音を含むと示す場合、フレームの振幅
は、結果生じるスピーチ信号における音の大きさが聴取
者の検出しきい値を超える尤度を増加させるように設計
された方法で増加する（ステップ５８）。フレームの振
幅を、たとえば所定の利得値によって所定の振幅値まで
増加するか、あるいは振幅を、同じスピーチ信号内の他
のフレームの振幅に依存する量だけ増加させることがで
きる。摩擦音は、可聴乱流を生成する声道の狭窄部を通
して肺から空気を押し出すことによって生成される。無
声の摩擦音の例として、ファット（fat）の「ｆ」、サ
ット（sat）の「ｓ」、チャット（chat）の「ｃｈ」が
挙げられる。摩擦音は、多数のサンプル期間にわたって
振幅が比較的一定であることによって特徴づけられる。
したがって無声の摩擦音は、フレームが無声音に対応す
るという決定がなされた後に多数の連続的なフレームの
振幅を比較することによって識別することができる。

【００１７】抽出されたデータが、フレームが有声の破
裂音の頭の成分であることを示す場合、有声の破裂音に
先行するフレームの振幅が低減される（ステップ６
０）。破裂音は、息を完全に止めた後に急に吐き出すこ
とによって生成される音である。したがって破裂音は、
スピーチ信号において振幅が急に下降した後、振幅が急
に上昇することによって特徴付けられる。有声の破裂音
の例として、ベイト（bait）の「ｂ」、デート（date）
の「ｄ」、ゲート（gate）の「ｇ」が挙げられる。破裂
音は、スピーチ信号内の隣接するフレームの振幅を比較
することによって、信号内において識別される。有声の
破裂音に先行するフレームの振幅を低減させることによ
って、破裂音を特徴づける振幅の「スパイク」に強勢が
置かれ、その結果、了解度が高まる。

【００１８】抽出されたデータが、フレームが無声の破
裂音の頭の成分であることを示す場合、無声の破裂音に
先行するフレームの振幅が低減され、無声の破裂音を含
むフレームの振幅が増加される（ステップ６２）。無声
の破裂音に先行するフレームの振幅は、上述したように
低減され、破裂音の振幅の「スパイク」を強調する。無
声の破裂音の頭の成分を含むフレームの振幅が増加さ
れ、結果生じるスピーチ信号における音の大きさが聴取
者の検出しきい値を超える尤度を増加させる。

【００１９】図４を参照すると、次にデジタル波形のフ
レーム毎の再構成が、たとえば振幅、ボイシング、ピッ
チ、スペクトルフィルタリングデータを用いて行われる
（ステップ６４）。次いで個々のフレームが、完全なデ
ジタルシーケンスにつなぎ合わされる（ステップ６
６）。次いでデジタルアナログ変換が行われ、アナログ
出力信号を生成する（ステップ６８）。図３および図４
に図示される方法は、リアルタイム了解度強化手順の一
部としてすべて一度に行うことができるか、あるいは、
異なる時間において多数の副次的な手順で行うことがで
きる。たとえば本方法が補聴器において実施される場
合、全体的な方法が使用され、補聴器をつけたユーザに
よって検出されるように、入力アナログ信号を強化され
た出力アナログスピーチ信号に変換する。代替的な実施
例において、ステップ５０からステップ６２をスピーチ
信号復号化手順の一部として行ってもよく、一方、ステ
ップ６４からステップ６８は、次のスピーチ信号復号化
手順の一部として行われる。別の代替的な実施例におい
て、ステップ５０からステップ５６は、スピーチ信号符
号化手順の一部として行われ、一方、ステップ５８から
ステップ６８は、次のスピーチ復号化手順の一部として
行われる。符号化手順と復号化手順との間の期間におい
て、スピーチ信号をメモリユニット内に格納するか、あ
るいは、通信チャネルを介して遠隔位置間で転送するこ
とができる。好適な実施例において、ステップ５０から
ステップ５６は、周知のＬＰＣまたはＣＥＬＰ符号化技
術を用いて行われる。同様に、ステップ６４からステッ
プ６８は、周知のＬＰＣまたはＣＥＬＰ復号化技術を用
いて行うことが好ましい。

【００２０】上述したものと同様の方法で、本発明の原
理を、他の音のタイプの了解度を高めるために使用する
ことができる。特定の音のタイプが了解度の問題を表す
ことが判定されると、次に、どのようにしてその音のタ
イプをスピーチ信号のフレーム内で識別できるかが判定
される（たとえば、スペクトル分析技術の使用、および
隣接するフレーム間の比較を用いて）。次いで、圧縮信
号が後に復号化されて再生される場合、かかる音を含む
フレームが、音の了解度を高めるためにどのようにして
修正される必要があるかが判定される。他のタイプのフ
レーム修正も本発明により可能であるが（たとえば、ス
ペクトルフィルタリングを決定する反射係数に対する修
正）、典型的には、修正は、対応するフレームの振幅の
単純なブーストを含む。

【００２１】本発明の重要な特徴は、通常、本発明の原
理を用いて生成された圧縮スピーチ信号を、本発明にし
たがって修正されていない従来のデコーダ（たとえば、
ＬＰＣまたはＣＥＬＰデコーダ）を用いて復号化できる
ことである。さらに、本発明にしたがって修正されたデ
コーダを、本発明の原理を用いずに生成された圧縮スピ
ーチ信号を復号化するために使用することもできる。し
たがって本発明の技術を用いるシステムは、システム内
に普及している、信号の非互換性を気にすることなく、
経済的な方法で断片的に向上することができる。

【００２２】本発明をその好適な実施形態とともに説明
してきたが、当業者であれば容易に理解されるように、
本発明の精神および範囲を逸脱せずに修正および変形を
用いることが可能であることを理解されたい。かかる修
正および変形は、本発明および添付した特許請求の範囲
の権限および範囲内にあると考えられる。

【図面の簡単な説明】

【図１】本発明の一実施形態によるスピーチ処理システ
ムを図示したブロック図である。

【図２】本発明の一実施形態によるスピーチ信号を処理
する方法を図示したフローチャートである。

【図３】本発明の一実施形態によるスピーチ信号の了解
度を高める際に使用される方法を図示したフローチャー
トの部分である。

【図４】本発明の一実施形態によるスピーチ信号の了解
度を高める際に使用される方法を図示したフローチャー
トの部分である。

【符号の説明】

１０スピーチ処理システム１２入力ポート１４出力ポート１６アナログデジタルコンバータ１８フレーム分離ユニット２０フレーム分析ユニット２２フレーム修正ユニット２４圧縮ユニット

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 9/14 Ｃ

Claims

【特許請求の範囲】

【請求項１】スピーチ信号を処理する方法であって、処理されるスピーチ信号を受信するステップと、前記スピーチ信号を多数のフレームに分割するステップ
と、前記分割するステップにおいて生成されたフレームを分
析し、前記フレームに関連する音のタイプを判定するス
テップと、前記音のタイプに基づいて前記フレームを修正し、出力
信号の了解度を高めるステップとを含む方法。
【請求項２】前記分析するステップは、前記フレームに対してスペクトル分析を行い、前記フレ
ームのスペクトル内容を判定するステップと、前記フレームのスペクトル内容を検査して、前記フレー
ムが有声音または無声音を含んでいるか否かを判定する
ステップとを含む、請求項１に記載の方法。
【請求項３】前記分析するステップは、前記フレーム
の振幅を判定し、前記フレームの振幅を先行するフレー
ムの振幅と比較し、前記フレームが破裂音を含むか否か
を判定するステップを含み、前記修正するステップは、
前記フレームが破裂音を含むと判定された場合、前記フ
レームの相対的な振幅をブーストするステップを含む、
請求項１に記載の方法。
【請求項４】前記音のタイプが破裂音である場合、先
行するフレームの振幅を減少させるステップをさらに含
む、請求項１に記載の方法。
【請求項５】前記修正するステップは、前記フレーム
に関連する前記音のタイプが無声の摩擦音を含む場合、
前記フレームの振幅を増加させるステップを含む、請求
項１に記載の方法。
【請求項６】前記多数のフレームは時間に基づいたフ
レームを含み、前記分析するステップは、取り囲むフレ
ームに関連して前記フレームのそれぞれを分析し、前記
修正するステップは、前記分析するステップの結果に基
づいて、選択されたフレームの振幅を調節するステップ
を含む、請求項１に記載の方法。
【請求項７】スピーチ信号を処理するシステムであっ
て、時間に基づいたフレームに分割されるスピーチ信号を取
得する手段と、前記フレームのそれぞれに関連する音のタイプを判定す
る手段と、音のタイプに基づいて、選択されたフレームを修正し、
信号了解度を高める手段とを含むシステム。
【請求項８】前記判定する手段は、（ａ）フレームに
対してスペクトル分析を行う手段、（ｂ）隣接するフレ
ームの振幅を比較する手段、又は（ｃ）フレームが有声
音または無声音を含むか否かを確認する手段のうちの１
つを含む、請求項７に記載のシステム。
【請求項９】前記修正する手段は、（ａ）他の音のタ
イプよりも了解度が典型的に低い音のタイプを含むフレ
ームの相対的な振幅をブーストする手段、（ｂ）無声の
破裂音を含むフレームの前記相対的な振幅をブーストす
る手段、（ｃ）無声の破裂音を含むフレームに先行する
フレームの前記相対的な振幅を低減する手段のうちの１
つを含む、請求項７に記載のシステム。
【請求項１０】処理装置において実行される際、請求
項１ないし６のいずれか１項に記載の方法を前記処理装
置に行わせるプログラム命令を含む、コンピュータ読み
取り可能媒体。