JP4152192B2 - オーディオ信号の高品質タイムスケーリング及びピッチスケーリング - Google Patents

オーディオ信号の高品質タイムスケーリング及びピッチスケーリング Download PDF

Info

Publication number
JP4152192B2
JP4152192B2 JP2002581514A JP2002581514A JP4152192B2 JP 4152192 B2 JP4152192 B2 JP 4152192B2 JP 2002581514 A JP2002581514 A JP 2002581514A JP 2002581514 A JP2002581514 A JP 2002581514A JP 4152192 B2 JP4152192 B2 JP 4152192B2
Authority
JP
Japan
Prior art keywords
splice point
audio signal
samples
audio
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002581514A
Other languages
English (en)
Other versions
JP2004527000A5 (ja
JP2004527000A (ja
Inventor
クロケット、ブレット・ジー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/922,394 external-priority patent/US20020116178A1/en
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of JP2004527000A publication Critical patent/JP2004527000A/ja
Publication of JP2004527000A5 publication Critical patent/JP2004527000A5/ja
Application granted granted Critical
Publication of JP4152192B2 publication Critical patent/JP4152192B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/325Musical pitch modification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/375Tempo or beat alterations; Music timing control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/541Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Stereophonic System (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

本発明は、オーディオ信号のサイコアコースティックな処理の分野に関する。とりわけ、本発明は、オーディオ信号のタイムスケーリング及び/又はピッチスケーリング(ピッチシフティング)をどこでどのように実行するかに関する。特に、本処理はディジタルオーディオ信号のような、サンプリングされたオーディオ信号に適用される。本発明はまた、オーディオを各々別々に認識されるような「聴覚的イベント」に分割することに関する。
タイムスケーリングは、スペクトル内容(音色の認識)、もしくは、知覚された信号のピッチ(ここでピッチとは、周期的なオーディオ信号に関連する特徴である)を変化させないで、オーディオ信号の時間的展開又は継続時間を変化させることに関するものである。ピッチスケーリングは、オーディオ信号の時間展開又は継続時間に影響を与えないで、オーディオ信号のスペクトル内容、もしくは、知覚された信号のピッチを変化させることに関するものである。タイムスケーリング及びピッチスケーリングは、お互いに二元的な方法である。例えば、オーディオ信号を5%タイムスケーリングすることで信号継続時間を増加させ、そして、5%高いサンプルレートで(例えば再サンプルにより)サンプル値を読み取り、それによりそのオリジナルな信号継続時間を維持させるようにしながら、ディジタル化されたオーディオシグナルのピッチをその継続時間に影響を与えることなく5%スケールアップすることが可能である。この結果としての信号は、オリジナルの信号と同じ継続時間となるが、修正されたピッチあるいはスペクトル特性となる。以下にさらに議論する通り、再サンプリングが適用されることもあるが、一定の出力サンプリングレート又は入出力サンプリングレートを同じにすることが要求されないなら、再サンプリングは本質的なステップではない。
オーディオ信号の時間とピッチの特性を独立に制御する品質の高い方法は、多くの用途がある。このことは、とりわけ、単純な音色の信号から音声信号や複雑な音楽に至るまでの広いレンジの内容を含む忠実度の高いマルチチャンネルオーディオにおいて真実である。時間とピッチのスケーリングの用途は、音声/映像の放送、音声/映像のポストプロダクション、同期化、マルチトラックオーディオ記録及びミキシングを含んでいる。音声/映像の放送とポストプロダクションにおいて、映像を発信元の素材とは違ったレートで再生することは、その結果オーディオ信号もそれに伴ってピッチスケーリングされたものとなるが、必要なことであろう。発信元の素材の音色とピッチとを維持した状態で、オーディオのピッチスケーリングは、オーディオと映像との同期を保持することができる。マルチトラックオーディオまたは音声/映像のポストプロダクションにおいて、オーディオまたは映像の断片における時間制約的な継続時間とマッチした新しい素材を必要とするかもしれない。オーディオのタイムスケーリングは、音源の音色とピッチを変更しないためには、オーディオの新たな断片を時間的に拘束することがある。
本発明の特徴によれば、オーディオ信号のタイムスケーリング及び/又はピッチシフティングの方法が提供される。この信号は、多数のサイコアコースティックな基準を用いて分析され、オーディオ信号のタイムスケーリング及び/又はピッチシフティング過程において、まったく音が聞こえないか又は最小限の音しか聞こえないような、オーディオ信号の領域が特定され、そしてこの領域内で、この信号は、タイムスケーリング及び/又はピッチシフティングされる。
本発明の更なる特徴によれば、多数チャンネルのオーディオ信号のタイムスケーリング及び/又はピッチシフティングの方法が提供される。オーディオ信号の各チャンネルは、少なくとも1つののサイコアコースティックな基準を用いて分析され、オーディオ信号のタイムスケーリング及び/又はピッチシフティング過程において、まったく音が聞こえないか又は最小限の音しか聞こえないような、オーディオ信号のチャンネルにおける領域が特定され、そして、オーディオ信号の複数チャンネルのすべてにおいて、タイムスケーリング及び/又はピッチシフティングが、オーディオ信号チャンネルの少なくとも1つの特定された領域内にあるタイムセグメント期間中になされる。
本発明の更なる特徴によれば、オーディオ信号が聴覚イベントに分割され、聴覚イベント内でその信号がタイムスケール及び/又はピッチシフトされるようにした、オーディオ信号のタイムスケーリング及び/又はピッチシフティングの方法が提供される。
本発明の更に別の特徴によれば、各チャンネルのオーディオ信号が聴覚イベントに分割されるようにした、複数チャンネルのオーディオ信号のタイムスケーリング及び/又はピッチシフティングの方法が提供される。結合された聴覚イベントが決定され、あらゆるオーディオ信号チャンネル内に聴覚イベントの境界が現れたとき、各聴覚イベントは境界を持つ。すべてのオーディオ信号チャンネルは、結合された聴覚イベント内でタイムスケール及び/又はピッチシフトされ、このようなタイムスケーリング及び/又はピッチシフティングは、各チャンネルの聴覚イベント内にとどまる。
本発明のなお更なる特徴によれば、オーディオ信号が聴覚イベントに分割され、聴覚イベントは、サイコアコースティックな基準を用いて分析され、オーディオ信号のタイムスケーリング及び/又はピッチシフティング過程において、まったく音が聞こえないか又は最小限の音しか聞こえないような聴覚イベントを特定するオーディオ信号のタイムスケーリング及び/又はピッチシフティングの方法が提供される。タイムスケーリング及び/又はピッチシフティングのプロセスは、オーディオ信号のタイムスケーリング及び/又はピッチシフティング過程が、まったく音が聞こえないか又は最小限の音しか聞こえないようなものとみなされる聴覚イベント内でなされる。
本発明のなお更なる特徴によれば、各チャンネルのオーディオ信号が聴覚イベントに分割されるようにした、多数チャンネルのオーディオ信号のタイムスケーリング及び/又はピッチシフティングの方法が提供される。聴覚イベントは、少なくとも1つのサイコアコースティックな基準を用いて分析され、オーディオ信号のタイムスケーリング及び/又はピッチシフティング過程において、まったく音が聞こえないか又は最小限の音しか聞こえないような、聴覚イベントを特定する。結合された聴覚イベントが決定され、あらゆるオーディオ信号チャンネル内に聴覚イベントの境界が現れたところに、各聴覚イベントは境界を持つ。タイムスケーリング及び/又はピッチシフティングのプロセスは、多数チャンネルにおけるオーディオ信号のタイムスケーリング及び/又はピッチシフティング過程が、まったく音が聞こえないか又は最小限の音しか聞こえないようなものとみなされる結合された聴覚イベント内でなされる。
本発明のなお更なる特徴によれば、多数のサイコアコースティックな基準に基づくオーディオ信号の分析は、オーディオ信号を分析し、オーディオが一群のサイコアコースティックな基準のうちの少なくとも1つを満足するようなオーディオ信号の領域を決定することを含んでいる。
本発明のさらになお更なる特徴によれば、サイコアコースティックな基準は以下の内の1以上を含む。(1)特定された領域のオーディオ信号はトランジエントの結果として、実質的にプレマスクあるいはポストマスクされる。(2)特定された領域のオーディオ信号は実質的に非可聴である。(3)特定された領域のオーディオ信号は、主として高周波域にある。そして、(4)特定された領域のオーディオ信号は、そこでは、そのオーディオ信号に先立つ及び/又はそれに続くセグメントの一部分の方が大きくなっているような、オーディオ信号のセグメントのより静かな部分である。サイコアコースティックなマスキングの原則的な基準は以下に論ずる。
本発明の特徴は、タイムスケーリング及び/又はピッチシフティングのプロセスの結果としてのアーティファクトの可聴性を高める下向きの順番(つまり、判断基準の上下関係)に、一群のサイコアコースティックな基準が整えられることである。本発明のもう1つの特徴によれば、最も高いランキングのサイコアコースティックな基準(つまり、最小の可聴アーティファクトを導く基準)を満足するときの領域が特定される。あるいは、1つの基準を満足していたとしても、基準を満足するオーディオにおける他の1以上の領域を特定するために他の基準を探し出すこともできる。後者のアプローチは、マルチチャンネルオーディオにおいて、多数チャンネル間で可能性のある共通のスプライスポイントが現れるよう階層をさらに下げた基準も含めて、あらゆる基準を満足するすべての可能性のある領域の位置を特定するために役に立つ。
本発明の特徴は他のタイプのタイムスケーリング及び/又はピッチシフティングのプロセス(例えば、US特許No.6,266,033B1を見よ、この特許は全体としてここに組み込まれている)を利用するかもしれないが、本発明の特徴はタイムスケーリング及び/又はピッチシフティングのプロセスを効果的に利用し、
スプライスポイントがオーディオ信号の領域内で選択され、それにより時間内にスプライスポイントを導くオーディオ信号のリーディングセグメントを定義し、
スプライスポイントから間隔を空けてエンドポイントが選択され、それにより時間内にエンドポイントを追跡するオーディオ信号の追跡セグメントと、スプライスポイントとエンドポイントの間にオーディオ信号のターゲットセグメントを定義し、
リーディングセグメントと追跡セグメントはスプライスポイントで結合され、それにより、エンドポイントが前記スプライスポイントより時間的に遅くなったとき(より多いサンプル数を持つ)、ターゲットセグメントを削除すること、あるいは、エンドポイントが前記スプライスポイントより時間的に早くなったとき、ターゲットセグメントを繰返すことで継続時間を長くする(サンプル数を増加する)ことで、オーディオ信号の継続時間を短くし(サンプルにより代表させるディジタルオーディオの場合は、オーディオ信号のサンプル数を少なくする)、そして
要求するタイムスケーリング及び/又はピッチシフティングをもたらすレートで、結合されたリーディングセグメントと追跡セグメントを読み取る。
結合されたリーディングセグメントと追跡セグメントは、
オリジナルの継続時間と同じ継続時間がオーディオ信号のピッチシフティングとなり、
ターゲットセグメントが削除されたばあいは、サンプル数の減少に関係する変化と同じ比率で減少した継続時間がオーディオ信号の時間圧縮となり、
ターゲットセグメントが繰返されたばあいは、サンプル数の増加に関係する変化と同じ比率で増加した継続時間がオーディオ信号の時間拡張となり、
サンプル数の減少に関係する変化とは別の比率で減少した継続時間がオーディオ信号の時間圧縮及びオーディオ信号のピッチシフティングとなり、あるいは
サンプル数の増加に関係する変化とは別の比率で増加した継続時間がオーディオ信号の時間拡張及びオーディオ信号のピッチシフティングとなる
ようなレートで読み取られる。
ターゲットセグメントが削除されたとしても(データ圧縮)繰返されたとしても(データ拡張)、1つのスプライスポイントと1つのスプライスしか存在しない。ターゲットセグメントが削除された場合、スプライスは、スプライスポイントと削除されたターゲットセグメントのエンドポイントとが結合あるいはスプライスされるところに存在する。ターゲットセグメントが繰返された場合、それでもただ1つのスプライスしか存在しない。すなわち、そのスプライスは、ターゲットセグメント(スプライスポイント)の最初の演奏の終了点が、ターゲットセグメントの2番目の演奏の開始点(エンドポイント)に当たる。オーディオのサンプル数を減少する場合は(データ圧縮)、プレマスキング又はポストマスキングの基準のために、エンドポイントは(常に特定された領域内にあるスプライスポイントに加えて)特定された領域内にある事が望ましい。スプライスポイントがトランジエントによりプレマスキング又はポストマスキングされるような圧縮の場合、エンドポイントは、特定された領域内にある必要はない。他の場合は(以下に述べるように、聴覚イベント内に処理が行われる場合を除く)、可聴なものが削除されたり繰返されたりしないように、エンドポイントは特定された領域内にあることが望ましい。オーディオのサンプル数を増加する場合は(データ拡張)、オリジナルオーディオにおけるエンドポイントは特定された領域内にあることが望ましい。以下に記載の通り、スプライスポイントとしての可能性がある位置は、最も早い時間と最も遅い時間を持ち、エンドポイントとしての可能性がある位置は、最も早い時間と最も遅い時間を持つ。オーディオが、バッファメモリ内のデータのブロック内にあるサンプルにより代表される場合は、スプライスポイントとしての可能性がある位置は、おのおの、ブロック内で最大と最小の位置を持ち、エンドポイントもブロック内で最大と最小の位置を持ち、おのおのが最も早いエンドポイント時間と最も遅いエンドポイント時間を代表する。
マルチチャンネルのオーディオ処理において、指示のための合図を妨げないために、チャンネル間での相対的な振幅と位相の関係は維持しておくことが望ましい。従って、1つのチャンネルにおいてオーディオのターゲットセグメントが削除又は繰返された場合、他のチャンネルでそれに対応するセグメント(同じサンプルインデックスを持っている)も削除又は繰返される。すべてのチャンネルで非可聴なスプライシングを許可する、すべてのチャンネルに実質的に共通のターゲットセグメントを見つけることが必要である。
定義
本明細書において、「データ圧縮」とは、セグメントを削除してサンプル数を減少し、時間を縮めることを意味し、「データ拡張」とは、セグメントを繰返してサンプル数を増加し、時間を拡張することを意味する。オーディオの「領域」、「セグメント」及び「ポーション」は各々、シングルチャンネルからの、概念的には時間における2つの瞬間の間(ある瞬間から次の瞬間までの期間)のオーディオの、有限的に連続する部分を表現する。このような、領域、セグメントあるいはポーションは、連続的な標本値又はインデックス番号を持つサンプルで代表することができる。「特定された領域」とは、サイコアコースティックな基準により特定され、スプライスポイント及び普通はエンドポイントがあるオーディオの領域、セグメント又はポーションを意味する。「相関処理領域」とは、エンドポイント、もしくはスプライスポイント及びエンドポイント、を見つけるために相関関係の算定をするための領域、セグメント又はポーションを意味する。「サイコアコースティックな基準」には、時間領域におけるマスキング、周波数領域におけるマスキング、及び/又は他のサイコアコースティックな要因をベースとする基準が含まれる。以上に説明した通り、「ターゲットセグメント」は、データ圧縮の際には削除され、あるいは、データ拡張の際には繰返されるオーディオの部分を意味する。
マスキング
本発明の特徴は、人間の聴覚と、特に、マスキングとして知られているサイコアコースティックな現象をうまく利用するものである。簡易化されたマスキングの概念は図1及び以下の議論により把握することができる。図1中の実線は、そのレベルにおける正弦曲線や峡帯域ノイズのようなオーディオがちょうど聞こえるオーディオレベルすなわち、聴覚の閾値を示している。この曲線より上部にある音は可聴であり、下部にある音は可聴ではない。この閾値は明らかに大きく周波数に依存する。例えば4kHzでは、50Hzや15kHzの音に比べてはるかに小さな音も聞くことができる。25kHzにおいては、閾値はスケールを外れており、どんなに大きな音も聞こえない。
1つの周波数における比較的大きな信号、例えば、12で示した500Hzの正弦波の存在下での閾値を考える。修正された閾値14は、500Hzにじかに接している付近においては劇的に、周波数が離れたところではそこそこに上昇しており、可聴域から遠く離れた部分ではまったく上昇していない。
この閾値の上昇は、マスキングと呼ばれる。500Hzの大きな正弦波信号(「マスキングシグナル」又は「マスカー」)の存在下では、「マスキングスレッシュホールド」と称されるこの閾値以下の信号は、大きな信号により、隠されるか又はマスクされる。さらに少し離れても、信号が無いときの閾値よりレベルがいくぶん上昇するが、新しいマスクされた閾値より小さい他の信号は、聞こえない。しかし、信号が無いときの閾値が変化しないような離れた周波数帯において、500Hzのマスカーが無い状態で聞こえるオーディオは、500Hzのマスカーがあってもなお聞こえる。従って、マスキングは単に1以上のマスキングシグナルの存在に依存するのではなく、周波数帯域の広がりに依存する。ある音楽のパッセージには、例えば、可聴領域全域に広がる周波数の成分が含まれており、従って、シグナルが無いときの閾値の曲線と比較してあらゆるところで上昇したマスクされた閾値を与える。他の音楽のパッセージには、例えば、周波数帯の狭い部分に限定された成分の周波数の成分をもつ単一の楽器からの比較的大きなオーディオを含んでおり、従って、図1に例示した正弦波のマスカーに似たマスクされた閾値を与える。
マスキングは、マスカーとマスキングされる信号との間の時間関係に依存する、時間的側面を持っている。あるマスキングシグナルは、本質的にマスキングシグナルが存在するときのみにマスキングを行う(「同時マスキング」)。他のマスキングシグナルは、マスカーが存在するときのみならず、時間的にそれより早いとき(「バックワードマスキング」又は「プレマスキング」)及び、時間的にそれより遅いときにも(「フォワードマスキング」又は「ポストマスキング」)マスキングを行う。「トランジエント」すなわち、突然の短時間で大幅な信号レベルの上昇には、これら3つの「タイプ」すべてのマスキング、つまり、バックワードマスキング、同時マスキング、及びフォワードマスキングが現れる。一方、定常状態あるいは準定常状態においては、同時マスキングのみ現れる。本発明の関連で、トランジエントの結果による同時マスキングを利用するべきではない。なぜなら、それと同時に、あるいは、それとほぼ同時にスプライスすることにより、トランジエントに外乱を与えることは好ましくないからである。
オーディオのトランジエントは、フォワード及びバックワードの両方の時間的マスキングを行うことは、知られている。トランジエントオーディオ素材が、直接トランジエントに先立つオーディオ及び続くオーディオのようなトランジエントの前後の可聴オーディオ素材をマスクすることは、リスナーには知覚されない。(トランジエントによる同時マスキングは、繰返しを避けるため又はトランジエントを乱すためには用いられない。)プレマスキングは、測定されており、比較的短くほんの数msec(ミリセカンド)であり、一方、ポストマスキングは50msec以上続く。ポストマスキングはより長く続くので、一般的にポストマスキングの方がより有用であるにもかかわらず、「プレ」と「ポスト」の両方のトランジエントマスキングが、本発明に関連して活用される。
本発明の1つの特徴は、トランジエントの検出にある。下記に記載の現実の実施において、サブブロック(ひとかたまりのオーディオサンプルの一部)が調べられる。振幅の程度は、その点までの信号の振幅を代表する平滑化された移動平均値と比較される。演算は、高周波のトランジエントがより大きな低周波の信号により薄められ、そのため、消えてしまうことがないよう、全周波領域での演算と高周波領域のみでの演算とを分けて実行される。あるいは、トランジエントを検出する適当な公知の方法を採用しても良い。
スプライスは、時間と共に消滅する周波数の幅を持ったアーティファクトとなるような外乱を生じることがある。スプライシングによるアーティファクトの周波数の幅(及び振幅)は、(1)スプライスされた信号の周波数の幅(以下にさらに議論するように、アーティファクトは、スプライスされた信号の周波数の幅とは違った周波数の幅を潜在的に持っていることが認められる)、(2)スプライスポイントで繋がれたとき波形が一致するところまでの広がり、および(3)スプライスポイントで波形が繋がれたところでのクロスフェードの形及び持続時間に依存する。本発明の特徴によるクロスフェードについてはさらに以下に述べる。接続点における波形の一致を補助する相関技法についても以下に述べる。本発明の1つの特徴によれば、スプライシングによるアーティファクトがマスクされるか聞こえないようにするか又は少ししか聞こえないようにすることが望ましい。本発明により意図されたサイコアコースティックな基準は、アーティファクトがマスクされるか聞こえないようにするか又は少ししか聞こえないようにするような特徴を具備している。非可聴性或いは最小限の可聴性はマスキングのタイプと考えられる。マスキングは、アーティファクトがマスキング信号によるマスキング閾値以下(あるいは、マスキング信号が無いときは、信号が無いときの可聴閾値以下、これもマスキングの形式となると考えてよい)になるよう時間と周波数を限定する必要がある。アーティファクトの継続時間は、まず得られた近似として、本質的にはクロスフェードの長さ(継続時間)と定義される。クロスフェードが遅くなればなるほど、周波数帯域が狭くなるがその継続時間は長くなる。
非可聴性或いは最小限の可聴性をもつスプライスの解釈に関する一般的な原則は、信号レベル上昇の連続を考えることで理解することができる。マスキングが無いかほとんど無い低レベルの信号のスプライシングを考えてみる。うまく実行できた(言い換えれば、不連続性を最小限にし、波形がぴったりと合わされた)スプライスは、振幅が、恐らく可聴閾値より低い、従ってマスキングシグナルを必要としないようなアーティファクトを持ちこむだろう。レベルが上げられるので、信号はマスキングシグナルとして振舞い、可聴閾値を上げる。アーティファクトも振幅が上昇し、(図Iに関連して前記で議論したように)可聴閾値も上がる場合を除いて、信号が無いときの閾値以上になる。
理想的には、本発明の1つの特徴によれば、トランジエントがアーティファクトをマスクするために、アーティファクトがトランジエントのバックワードマスキングあるいはフォワードマスキングの時間領域において発生し、アーティファクトの周波数領域における各成分の振幅が、そのすべての瞬間におけるトランジエントのマスキング閾値より低くなる。
理想的には、本発明の他の特徴によれば、定常状態又は準定常状態の信号がアーティファクトをマスクするため、このアーティファクトはマスキング信号と同時に発生し(同時マスキング)、周波数領域における各成分が、そのすべての瞬間におけるトランジエントのマスキング閾値より低くなる。
本発明のさらに他の特徴によれば、アーティファクトの周波数領域における成分が、信号が無いときのの可聴閾値より低くなる可能性がある。この場合、このような非可聴性はアーティファクトのマスキングであると考えられたとしても、マスキング信号を必要としない。
原則として、十分な処理能力及び/又は処理時間があれば、アーティファクトがマスクされ又は聞こえなくされるかどうかを決めるため、スプライスされた信号をベースにしたアーティファクトの時間及び周波数特性をあらかじめ知ることは可能である。しかし、処理能力及び時間を節約するため、スプライスポイントの近傍で(特にクロスフェード内で)、スプライスされた信号の振幅を考慮することによって、実用的な結果が得られる。あるいは、定常状態又は準定常状態の特定された優勢な高周波数領域の信号の場合は、単に振幅を考えずにスプライスされた信号の周波数成分を考えるだけで、実用的な結果が得られる。
スプライスの結果現れるアーティファクトの振幅は一般にスプライスされた信号の振幅と同程度か又は小さい。しかし、一般的に、アーティファクトの周波数領域の幅をあらかじめ予想することは実用的ではない。もし、スプライスポイントが人間の可聴閾値を下回るオーディオ信号の領域内にあれば、結果として現れるアーティファクトは、振幅が小さいか又は同程度であるが、耳の感度の高い(低い閾値を持つ)周波数を含んでいるかも知れないので、人間の可聴閾値を上回る可能性がある。それゆえに、可聴性を評価する上で、周波数に依存する実際の可聴閾値より、最も耳の感度の高い周波数(約4kHz)での可聴閾値に固定したレベルで信号の振幅を比較するのが望ましい。このような控えめなアプローチは、アーティファクトの過程が周波数領域のどこで現れた実際の閾値よりも下回ることを保証する。この場合、クロスフェードの長さが可聴性に影響を与えるべきでなく、データの圧縮あるいは拡張の余地を与えるため、比較的短いクロスフェードを使うことが望ましいであろう。
人間の耳は、高周波が優勢な波形において不連続に対する感度が欠けている(例えば、高周波波形の切れ目に発生するクリック音は、低周波波形でのクリック音に比べて、マスクされたり聞こえなくなったりしやすい)。高周波の波形において、アーティファクトの成分も高周波が優勢となり、スプライスポイントにおける信号の振幅にかかわらずマスクされる(なぜなら、定常状態又は準定常状態の特定された領域における特性として、スプライスポイントでの振幅は、マスカーとして作用する特定の領域での信号の振幅と同程度だからである)。これは、同時マスキングの場合であると考えてもよい。この場合、クロスフェードの長さは恐らくアーティファクトの可聴性に影響を与えないが、データの圧縮あるいは拡張の余地を与えるため、比較的短いクロスフェードを使うことが望ましいであろう。
もし、スプライシングポイントがトランジエントでマスク(すなわち、プレマスキング又はポストマスキング)される特定のオーディオ信号領域内であるなら、スプライスされた各信号の振幅が、適用されたクロスフェードの長さを含むクロスフェードの特性も考慮に入れ、特定のスプライスポイントがトランジエントによってマスクされるかどうかを決める。マスキングの量は時間と共に消滅するトランジエントにより与えられる。このように、トランジエントによるプレマスキングあるいはポストマスキングの場合、大きいが比較的短期間の外乱を導き、プレマスキングまたはポストマスキングの期間中に発生する可能性が高い、比較的短いクロスフェードを用いるのが望ましい。
トランジエントによりプレマスク又はポストマスクされないオーディオ信号の領域内にスプライシングポイントがある場合、本発明の特徴によれば、オーディオ信号のセグメントに含まれるオーディオ信号の最も静かなサブセグメントを選ぶ(実際には、セグメントはバッファメモリ中のサンプルのひとかたまりであろう)。この場合、スプライスされた各信号の振幅が、適用されたクロスフェードの長さを含むクロスフェードの特性も考慮に入れ、スプライシングによる外乱に起因するアーティファクトが可聴である範囲を決定する。もしサブセグメントのレベルが低ければ、アーティファクト成分のレベルも低いであろう。低いサブセグメントのレベル及び周波数幅によっては、同時マスキングになるかもしれない。加えて、オーディオサラウンディングのよりレベルの高い部分では、低レベルのサブセグメントが、クロスフェード中の閾値を上げて時間的なプレマスキング又はポストマスキングを提供することもできる。アーティファクトは常に非可聴であるとは限らず、スプライスがより音の大きな領域で実行されたときより、聞こえにくくなるのである。このような可聴性は、より長いクロスフェード長を採用し、スプライスポイントで十分波形を一致させれば、最小限に押さえることが可能である。しかし、長いクロスフェードは、変更されスプライスポイント及び/又はエンドポイントをブロックの端から遠ざけられようとしている音楽のパッセージの長さを効果的に長くするので、ターゲットセグメントの長さと位置を限定する。従って、最大のクロスフェード長は妥協した長さとなる。
オーディトリーシーンアナリシス
サイコアコースティック分析を採用することは、タイム及び/又はピッチスケーリングを提供する過程において、不要な可聴のアーティファクトを減少させる上で実用的であるが、オーディオを「イベント」あるいは「聴覚イベント」と呼ばれる時間セグメントに分割し、その各々を別々なものとして認識し、そのイベント内でタイムスケーリング及び/又はピッチスケーリングを実行することによって、不要な可聴のアーティファクトの減少を実行することが可能である。オーディオを別のものと認識されるユニットに分割することは、「オーディトリーイベントアナリシス」又は「オーディトリーシーンアナリシス」(「ASA」)と呼ばれる。サイコアコースティックアナリシス及びオーディトリーシーンアナリシスは、タイム及び/又はピッチスケーリング過程における不要な可聴のアーティファクトを減少させることを補助するため、独立に採用されるが、お互いに組合せることで好都合に用いることができる。
タイム及び/又はピッチスケーリングを(1)サイコアコースティックアナリシスのみと組合せて、(2)オーディトリーシーンアナリシスのみと組合せて、及び(3)サイコアコースティックとオーディトリーシーンアナリシスとをお互いに組合せて、提供することは、すべて本発明の特徴である。さらに本発明の特徴は、オーディオのセグメントが削除されあるいは繰返されるタイプとは別のタイプのタイム及び/又はピッチスケーリングの一部として、サイコアコースティックアナリシス及び/又はオーディトリーシーンアナリシスを採用することが含まれている。例えば、発行されたUPパテントNo.6,266,003B1に公開されているオーディオ信号のタイムスケール及び/又はピッチシフモディフィケーションの処理は、発行された処理技術を、本明細書で公開されたサイコアコースティック基準の1つ以上を満たすオーディオセグメントに用いるだけで、及び/又は、各オーディオセグメントが聴覚イベントを超えないオーディオセグメントに用いるだけで、改善される。
オーディトリーシーンアナリシスの幅広い議論は、Albert S. Bregmanの「Auditory Scene Analysis- The Perceptual Organization of Sound」マサチューセッツ工科大学、1991年、第4版、2001年、第2MITプレスペーパーバック版に公開されている。加えて、Bhadkamkar他の米国特許6,002,776,1999年12月14日でも、1976年に発行された「prior art work related to sound separation by auditory scene analysis」を引用している。しかし、Bhadkamkar他の特許は、オーディトリーシーンアナリシスの実用的な採用の意欲を失わせるものであり、「オーディトリーシーンアナリシスを必要とする技術は、人間の聴覚処理のモデルという観点から科学的には興味があるものの、現時点ではコンピュータに対する要望が非常に強すぎ、特別なものなので、基本的な処理がなされるまでオーディオ分割の実用的な技術と考えることはできない。」と結論付けている。
本発明の特徴によれば、オーディオを時間的なセグメントに分割するか又は別のものと認識される「聴覚イベント」に分割する、コンピュータによる効率的な処理が提供される。
Bregmanは文中に「オーディオが音色、高さ、大きさにおいて突然変化したとき、別々の単位としてあるいは、(小さい範囲で)空白として聞こえる。」(Auditory Scene Analysis - The perceptual Organization of Sound, 469ページ)。Bregmanは、例えば周波数が別々であるとき、たくさんのオーディオが同時に流れたときのオーディオの認知について議論している。
音色と高さの変化及び振幅の変化を検出するため、本発明による聴覚イベント検出処理では、時間に対する周波数成分の変化を検出する。各チャンネルが空間での方向を代表するようなマルチチャンネルサウンドの構成に適用されるときは、本発明による処理では、時間に対する空間的な位置の変化によりもたらされる聴覚イベントを検出する。状況に応じて、本発明の更なる特徴によれば、この処理は、時間に対する周波数成分の変化を検出したのでは検出できない、時間に対する振幅の変化も検出することが可能である。聴覚イベント内でタイムスケーリング及び/又はピッチスケーリングを行うことは、恐らくほとんど可聴なアーティファクトを引き起こさないだろう。なぜなら、可聴イベント内のオーディオは、まず一定であり、無理なく一定と認識され、あるいはそれ自身がオーディオの実体(例えば、1つの楽器で演奏された音)だからである。
コンピュータによる最小限必要とされる実施形態において、この処理は、全部の周波数帯(フルバンド幅オーディオ)又は実質的に全部の周波数帯(実用的な実施形態において、周波数帯域の両端において、しばしばバンド幅制限用フィルターが用いられる)を分析して、オーディオをタイムセグメントに分割し、最も大きなオーディオ信号成分に最大の重み付けをおこなう。この取り組みは、短時間尺度(20msec以下)では、耳は与えられた時間で1つの聴覚イベントに焦点を絞る傾向があるというオーディオ心理(サイコアコースティック)現象をうまく利用したものである。この現象を利用することは、聴覚イベントに、処理しようとする複雑なオーディオに対応させることにもなる。例えば、処理している入力オーディオ信号が単独の楽器によるものであるとすると、識別された聴覚イベントは、恐らく演奏された個別の音のようになるであろう。入力音声信号も同様に、言葉、母音及び子音の各成分は、恐らく個別のオーディオエレメントとして認識されるであろう。ドラムビートや多数の楽器及び音声のようにオーディオの複雑が増すにつれて、聴覚イベントの検出はその瞬間毎の最も突出した(すなわち最も大きな)オーディオエレメントを識別する。もう1つの方法として、聴覚の閾値と周波数応答を考慮に入れて、「突出した」オーディオエレメントを決定しても良い。
状況に応じて、コンピュータでの処理を複雑にすることとなるが、この処理を、時間に関しては全帯域幅よりむしろ離散周波数帯域(固定帯域又はダイナミックに決定される帯域又は固定かつ動的に決定される帯域)における時間に関する周波数成分の変化を考慮に入れておこなっても良い。この代案によるやり方は、特定の時間にただ1つのオーディオの流れのみが認識できるとみなすというより、違った周波数帯域における2以上のオーディオの流れを考慮に入れるものである。
本発明の特徴に従ったオーディオのセグメントのための方法は、簡単でコンピュータを使った効率的な方法であるが、聴覚イベントを識別し、タイム及び/又はピッチモディフィケーション技法において、可聴なアーティファクトを減少するのに有効であることがわかった。
本発明による聴覚イベント検出処理は、時間領域のオーディオ波形を時間区間あるいはブロックに分割し、フィルターバンクやFFTのような時間‐周波数変換のいずれかを用いて、各ブロックのデータを周波数領域に変換することで、実行される。各ブロック内の周波数領域における振幅は、振幅の変化による影響を取り除くかあるいは減らすために、正規化しておいても良い。変換結果、各周波数領域において表示されるものは、特定のブロックのオーディオについての周波数領域における内容(周波数を変数とする振幅)の表示である。連続するブロックでの周波数領域における内容は比較され、閾値より大きな変化は、聴覚イベントの時間的な開始点あるいは時間的な終了点とすることができる。
コンピュータの複雑さを最小限にするため、時間領域のオーディオ波形のただ1つの周波数帯域、好ましくは、周波数のすべての帯域(平均的な質の音楽システムの場合は、50Hzから15kHzまでとすることができる)又は実質的に周波数のすべての帯域(例えば、フィルターにより極端な高低周波数を除外することで定義される帯域)のいずれかでのみ、処理しても良い。
周波数領域でのデータを正規化するのに必要な度合いが振幅の表示を決める。したがって、この度合いにおける変化があらかじめ定めた閾値を超える場合は、イベントの境界で表示が多すぎることになる。周波数帯域の変化及び振幅の変化に伴うイベントの開始点及び終了点は、イベントの境界がどちらのタイプに変化によるものであっても特定できるように、OR条件で合体される。
実際には、聴覚イベントの時間的なの開始及び終了点の境界は必ずしも、時間領域でオーディオ波形が分割されたブロックの境界と同時に起こるわけではない。実時間における処理の要求と(ブロックを大きくすれば、処理の費用は少なくてすむ)、イベントの位置の分解能(ブロックを小さくすれば、聴覚イベントの位置についての詳細情報が提供される)とはトレードオフの関係になっている。多数のオーディオチャンネルの場合は、各チャンネルが空間的な方向を表現し、各チャンネルは独立に扱うことが可能で、結果として現れるすべてのチャンネルの境界はOR条件で合体することが可能である。したがって、例えば、突然方向を変えた聴覚イベントは、恐らく「イベントの終了点」の境界はあるチャンネルに、「イベントの開始点」の境界は他のチャンネルという結果をもたらすだろう。OR条件で合体した場合は、2つのイベントは識別される。このようにして、本発明における聴覚イベントの検出処理は、周波数(音色及び音程)、振幅、及び方向の変化をベースとする聴覚イベントの検出が可能である。
更なる選択として、コンピュータ処理が増大することになるが、周波数の単一の帯域における時間領域の波形の周波数内容を処理する代わりに、周波数領域に変換するに先だって、時間領域の波形の周波数を2以上の周波数帯域に分割することもできる。各周波数帯域は、次に周波数領域に変換され、あたかもそれが独立したチャンネルであるかのように上述の方法で処理することが可能である。結果として現れるチャンネルの境界はその後、そのチャンネルのイベントの境界を定義するために、OR条件で合体することが可能である。多数の周波数帯域は固定しても、可変にしても、あるいは固定と可変を組合せても良い。例えば、オーディオノイズの低減に用いるトラッキングフィルター技術やその他の技術を、可変周波数帯域の定義のために採用しても良い(例えば、同時に起こる支配的な正弦波が800Hzと2kHzにある場合、この2つの周波数を中心とする帯域が、適合的に決められる2つの帯域という結果となる)。
オーディトリーシーンアナリシスに用いられる他の技術は、本発明のいろいろな側面で聴覚イベントを識別するために採用することができる。
ここで開示された実施例では、オーディオは固定された長さのサンプルブロックに分割される。しかし、本発明のいろいろな側面における本質は、オーディオをサンプルブロックに整えること、あるいは、もしあるとしても、固定された長さのブロック(ブロックは可変長でも良く、その各々は、本質的に聴覚イベントの長さになる)の提供を必要としない。オーディオがブロックに分割されたとき、本発明の更なる特徴によれば、単一チャンネルと多数チャンネルの両方の環境で、特定のブロックの処理はおこなわない。
本発明の他の特徴は、発明の詳細な説明を読み理解することで、認識し理解されるであろう。
図2A及び2Bはターゲットセグメントを削除することでデータの圧縮をおこなう概念を描いた概念的な概要説明図であり、一方、図2Cと図2Dは、ターゲットセグメントを繰返すことでデータの拡張をおこなう概念を描いた概念的な概要説明図である。実際には、データの圧縮処理とデータの拡張処理は、1つ以上のバッファメモリ内のデータに適用され、このデータはオーディオ信号を示すサンプル値となる。
図2Aから2Dの特定された領域は、信号のトランジエントの結果ポストマスキングされる基準を満足しているとはいえ、図2Aから2Dの例に内在する原理は、上記の他の3つを含む他のサイコアコースティックな基準を満足する領域を特定する。
図2Aを参照すると、データ圧縮が描かれており、オーディオ102は、「特定された領域」を構成するサイコアコースティックにポストマスキングされた領域106の一部となるトランジエント104を有する。このオーディオは分析され、特定された領域106内でスプライスポイント108が選択される。図3A及び図3Bに関連してさらに以下に説明するように、オーディオがバッファ内のブロックで表されている場合、このブロック内に、最小の又は最も早いスプライスポイントの位置(すなわち、データがサンプルで表される場合、それは少ないサンプル又はインデックス番号を有する)と、最大の又は最も遅いスプライスポイントの位置(すなわち、データがサンプルで表わされる場合、それは大きいサンプル又はインデックス番号を有する)が存在する。スプライスポイントの位置は、最小スプライスポイント位置から最大スプライス位置間での可能なスプライスポイント位置の範囲内で選択され、ほとんどの場合、ターゲットセグメントの大きさを最大にするために、スプライスポイントを、最小又は最も早いスプライスポイント位置にすることが望ましいのではあるが、スプライスポイントの位置は決定的なものではない。スプライスポイントの位置の初期値は、特定された領域の開始から(例えば、5msecなどの)短時間経過した時を採用することができる。もっと最適なスプライスポイントを提供する他の方法を以下に記載する。
オーディオの分析を続け、エンドポイント110が選択される。1つの代案として、この分析には、スプライスポイント108から(大きなサンプル又はインデックス番号に向かって)最大処理ポイントの位置115までの領域112での自己相関が含まれる。実際には、最大エンドポイントの位置は、最大処理ポイントより、以下に詳しく説明するように、クロスフェード時間の半分に等しい時間(または、サンプル数の半分の時間)だけ、早い(少ないサンプル又はインデックス番号を有する)。さらに、以下に詳しく説明するように、自己相関の処理は最小エンドポイントの位置116と最大エンドポイントの位置114との間で、相関の最大を探し出すこと、及び、時間領域の相関又は時間領域の相関と位相の相関の両方を採用することを必要とする。最大と最小のエンドポイント位置を決定する方法を以下に示す。時間圧縮のため自己相関により決定されたエンドポイント110はスプライスポイント108のあとに続く時となる(すなわち、データがサンプルで表される場合、それは大きいサンプル又はインデックス番号を有する)。このスプライスポイント108はスプライスポイントを導くオーディオのリーディングセグメント118を定義する(すなわち、データがサンプルで表される場合、それはスプライスポイントより少ないサンプル数又は指数を有する)。エンドポイント110はエンドポイントの後に続くトレイリングセグメント120を定義する(すなわち、データがサンプルで表される場合、それはエンドポイントより大きいサンプル数又は指数を有する)。スプライスポイント108とエンドポイント110はオーディオのセグメントの終了点つまりターゲットセグメント122を定義する。
データ圧縮のために、ターゲットセグメントは削除され、図2Bに示すようにリーディングセグメントが、好ましくはクロスフェードの技法を用い、スプライスポイントにおいてトレイリングセグメントと突合せ又は重ね合わせて接合され(図示せず)、このスプライスポイントは特定された領域106内にとどまる。このように、クロスフェードされたスプライス(接合)「ポイント」は接合「領域」として特徴づけられる。接合するアーティファクトの成分は、原理的にクロスフェード内に残り、それは、特定された領域106内にあり、データ圧縮の可聴性を最小限にする。図2Bでは、圧縮されたデータは参照番号102’で示されている。
各図面を通して、同じ参照番号は同様の要素に適用されるとともに、プライムマークのついた参照番号は関連するが修正された要素に用いられる。
図2Cを参照すると、データ拡張が描かれているが、オーディオ124は、「特定された領域」を構成するサイコアコースティックにポストマスキングされた領域128の一部となるトランジエント126を有する。データ拡張の場合は、このオーディオは分析され、スプライスポイント130もまた特定された領域128内で選択される。さらに以下に説明するように、オーディオがバッファ内のブロックで表されている場合、このブロック内に、最小のスプライスポイントの位置と、最大のスプライスポイントの位置とが存在する。オーディオは、エンドポイントを突き止めるために、スプライスポイントから前方向(もし、データがサンプルで表される場合、大きいサンプル番号又はインデックス番号の方向)と後ろ方向(もし、データがサンプルで表される場合、小さいサンプル番号又はインデックス番号の方向)の両方向に分析される。前方向と後ろ方向の検索は、最もデータが見つかる可能性の高いスプライスポイントの前と、繰返すのに適当なスプライスポイントの後ろに、データを見つけるために行われる。もっと具体的には、前方向の検索は、スプライスポイント130から最初の最大処理ポイントの位置132までおこなわれ、後ろ方向の検索は、スプライスポイント130から後ろ方向に第二の最大処理ポイントの位置134までおこなわれる。この2つの最大処理の位置は、必ずしもそうでなくてもよいが、スプライスポイント130から同じ数のサンプル数分だけ離れたところにしておけばよい。以下に詳しく説明するように、スプライスポイントから最大検索ポイントの位置までと最大エンドポイントの位置までの二つの信号セグメントは、おのおの、最大の相関を探し出すために自己相関が算出される。自己相関は、時間領域の相関を採用しても良いし、時間領域の相関と位相の相関の両方を採用しても良い。実際には、以下に説明するように、最大エンドポイント位置135は、第二の最大処理ポイントの位置134より、クロスフェード時間の半分に等しい時間だけ(あるいは、等価なサンプル数の時間だけ)遅い(大きいサンプル又はインデックス番号を持つ)。
逆に、図2Aと2Bのデータ圧縮の場合では、自己相関により定められるエンドポイント136は、スプライスポイント130に先立つ時点にある(すなわち、オーディオがサンプルで表される場合、小さいサンプル又はインデックス番号を有する)。スプライスポイント130は、スプライスポイントを導くオーディオのリーディングセグメント138を定義する(すなわち、オーディオがサンプルで表される場合、スプライスポイントより小さいサンプル数又は指数を有する)。エンドポイント136はエンドポイントの後に続くトレイリングセグメント140を定義する(すなわち、オーディオがサンプルで表される場合、スプライスポイントより大きいサンプル数又は指数を有する)。スプライスポイント130とエンドポイント136はオーディオのセグメントの終了点つまりターゲットセグメント142を定義する。このように、スプライスポイント、エンドポイント、リーディングセグメント、トレイリングセグメント、およびターゲットセグメントの定義は、データ圧縮及びデータ拡張の場合と同じである。しかし、データ拡張の場合は、ターゲットセグメントはリーディングセグメントとトレイリングセグメント(それは繰返されるので)の両方の一部となり、データ圧縮の場合はターゲットセグメントハそのどちらにも存在しない。
図2Dでは、リーディングセグメントは、好ましくはクロスフェード(図示されていない)を用いて、スプライスポイントでターゲットセグメントと接合され、出来あがったオーディオ124’において、ターゲットセグメントを繰返させる。データ拡張の場合は、エンドポイント136は、元のオーディオの特定された領域128の中になければならない(このようにして、元のオーディオ内のすべてのターゲットセグメントは、特定された領域内に置かれる)。ターゲットセグメント(リーディングセグメントの一部となる)の最初の演奏142’とスプライスポイント130はマスクされた領域128内にとどまる。ターゲットセグメント(トレイリングセグメントの一部となる)の2番目の演奏は、スプライスポイント130の後にあり、必ずしもそうでなくても良いが、マスクされた領域128の外まで広げることも可能である。しかし、ターゲットセグメントは元のオーディオと時間を拡張したオーディオの両方にあるトレイリングセグメントとつながっているため、このようにマスクされた領域の外へ広げることはオーディオには何ら影響しない。
圧縮の場合は、トランジエントを削除しないようにするため、拡張の場合は、トランジエントを繰返さないようにするため、ターゲットセグメントにはトランジエントを含まないことが望ましい。従って、スプライスポイント及びエンドポイントは、両方ともトランジエントより早い(すなわち、オーディオがサンプルで表される場合、小さいサンプル又はインデックス番号を有する)か、あるいは遅く(すなわち、オーディオがサンプルで表される場合、大きいサンプル又はインデックス番号を有する)するというように、両方ともトランジエントに対して同じ側に存在させるべきである。
本発明の他の形態では、クロスフェードを選択しオーディオ信号に応じてクロスフェードの形と継続時間を変化させることにより、スプライスの可聴性をさらに減少させることが可能となる。さらに詳細なクロスフェードは図10とその説明と共に以下に示す。実際には、以下に説明するように、クロスフェード時間はスプライスポイントとエンドポイントの極端な位置決めに多少の影響を与える。
図3Aと3Bは圧縮のため(図3A)と、拡張のため(図3B)の入力オーディオを表すサンプルのブロックの中に最小及び最大のスプライスポイントの位置を決める例を表す。最小(最も早い)スプライスポイントの位置は、最大(最も遅い)スプライスポイントの位置より小さいサンプル又はインデックス番号を有する。スプライスポイントの最小及び最大は、データ圧縮とデータ拡張におけるブロックの終端に関してスプライスに用いられるクロスフェードの長さと相関計算領域の最大長さに、さまざまに関係する。相関計算領域の最大長さの決定について図4とともに詳しく説明する。この相関計算領域は、時間尺度を圧縮するため、エンドポイントを特定するための自己相関計算に用いられ、スプライスポイントの後に来るオーディオデータの領域である。時間尺度を拡張するために、2つの相関計算領域があり、これらは、必ずしもそうしなければならないということではないが、同じ長さで1つはスプライスポイントの前に、もう1つはスプライスポイントの後ろにすることとしても良い。これらは、自己相関計算処理により適当なエンドポイントを決定するために用いられる。
オーディオデータの各ブロックには、最小スプライスポイント位置と最大スプライスポイント位置とがある。図3Aに示すように、ブロックの終端に対する最小スプライスポイント位置は、圧縮の場合は最も早い時間を表しており、スプライスポイント近傍のオーディオデータは終点付近でクロスフェードされるので、クロスフェードの長さの半分に制限される。同様に、時間尺度の圧縮のために、ブロックの終端に対する最大スプライスポイント位置は、圧縮の場合は最も遅い時間を表しており、クロスフェードの最大長さに制限される(最大エンドポイントの位置は、クロスフェードの長さの半分だけ最大処理長さより「早い」位置である)。
図3Bは時間尺度拡張のための最大及び最小スプライスポイント位置決定の概要を示す。ブロックの終端に対する最小スプライスポイント位置は、時間尺度拡張について最も早い時間を表しており、時間尺度縮小のための最大スプライスポイントの決定の場合と同様に、相関計算領域の最大長さに関係する(最小エンドポイントの位置は、最大相関計算処理長さの終点よりクロスフェードの長さの半分だけ「遅い」位置である)。ブロックの終端に対する最大スプライスポイント位置は、時間尺度拡張について最も遅い時間を表しており、相関計算領域の最大長さだけに関係する。これは、時間尺度拡張のためのスプライスポイントに続くデータは相関計算処理にのみ用いられ、エンドポイントは最大スプライスポイントの後に位置しないからである。
図3Aと3Bは入力データのブロックについて描かれているが、以下に説明するように、オーディトリーイベントを含んで別に処理される入力データの小部分(つまり、連続するサンプルの集合)に関する最大及び最小エンドポイントの決定に、同様の原理が適用される。
図4に示すように、時間尺度の圧縮の場合は、相関計算処理のための領域はスプライスポイントの後ろに位置する。スプライスポイントと最大処理ポイント位置は相関計算処理領域を定義する。図4に示されたスプライスポイントと最大処理ポイントの位置は恣意的な例である。最小エンドポイント位置は、エンドポイントが位置するスプライスポイント後部の最小サンプル又はインデックス値を示す。同様に、最大エンドポイント位置は、エンドポイントが位置するスプライスポイント後部の最大サンプル又はインデックス値を示す。最大エンドポイント位置は、最大処理ポイント位置よりクロスフェード長さの半分だけ「早い」位置となる。いったんスプライスポイントが選定されると、最小と最大エンドポイント位置は、ターゲットセグメントに使われるデータの量を制御し、初期値(使用可能な値は、各々7.5と25msecである)が与えられる。代案として、最小と最大エンドポイント位置は、オーディオの内容及び/又は時間尺度の要求量に応じてダイナミックに変更するために可変としても良い(最小エンドポイントは時間尺の割合に基づき変化させても良い)。例えば、その支配的な周波数が50Hzで、44.1kHzでサンプルされている信号に対して、オーディオ波形の1周期は約882サンプルとなる(又は20msecとなる)。このことは最大エンドポイントの位置は、オーディオデータの少なくとも1周期を含むのに十分な長さのターゲットセグメントという結果にすべきであるということを示している。どんな場合でも、最大処理ポイントは処理ブロックの終点より遅くはならない(この例では、4096サンプル、または、以下に説明するようにオーディトリーイベントを考慮に入れれば、オーディトリーイベントの終点より遅くはならない)。同様に、もし最小エンドポイントの位置がスプライスポイントの後7.5msecの位置に選ばれ、処理されているオーディオが最小エンドポイントの位置の近くにエンドポイントを一般に選択する信号を含んでいるなら、時間尺度の最大パーセンテージは書く入力データブロックの長さに依存する。例えば、入力データブロックのサイズが4096サンプル(又は44.1kHzのサンプルレートで約93msec)であるとすると、最小エンドポイント位置が選ばれれば、7.5msecの最小ターゲットセグメントの長さは、7.5/93=8%の最大時間尺度比率という結果となる。時間尺度縮小のための最小エンドポイントの位置を、7%の変化以下の比率にするため、7.5msecにすることが可能となり、

最小エンドポイントの位置=((時間尺度比率‐1.0)*ブロックサイズ)

と等しくなる。
ここで、時間尺度圧縮のためには時間尺度比率>1.0であり(1.10=10%再生時間比率増大)、そして44.1kHzにて目下ブロックサイズは4096サンプルとなる。これらの例は、最小及び最大エンドポイントの位置を、オーディオの内容及び時間尺度の比率の要求量に応じて変化させることの利点を示している。いずれにせよ、最小エンドポイントは、サーチ領域の極端な制限ほど大きくすべきでなく、最大エンドポイントに近づくべきでもない。
本発明の更なる特徴は、マスキングや非可聴性に頼る必要を少なくするためスプライスポイントとエンドポイントでの信号波形を一致させる比較技術を用いることも可能である。本発明の更なる特徴である一致技術は、接合点で繋ぐ波形の振幅と位相の両方が一致する点を求めるものである。これは先に述べた相関計算を必要とし、これも本発明の1つの特徴である。相関計算は周波数に対する耳の感度の変化による補正を含んでも良い。
図2A‐2Dと共に説明したように本発明の特徴として採用されたデータの圧縮或いは拡張では、オーディオの一部を削除したり繰返したりする。最初に説明した案では、クロスフェードの長さ、又は、トランジエント及び/又は他の信号条件を考慮したような信号要素から定めたスライスポイントの位置の要求距離を基礎とする、一般的な、あらかじめ定められたシステムパラメータを用いてスプライスポイントの位置が選定される。ある程度任意なスプライスポイントに対してさらに詳細なオーディオの分析(例えば相関計算)がおこなわれエンドポイントを決める。
2番目の案では、スプライスポイントとエンドポイントの位置はもっと信号に依存した方法で選定される。一連の仮に定めたスプライスポイント位置周辺の窓にはめられたデータは仮に定めた対応するエンドポイント位置を選定するために、相関計算処理領域のデータに対して相関計算がなされる。すべての仮に定めたスプライスポイント位置の中で最も強い相関関係を示した仮のスプライスポイント位置が最終のスプライスポイントとして選定され、仮に定めたエンドポイントは実質的に最も強い相関を示しタ位置に決められる。原則として、仮に定めたスプライスポイント間のスペースは、1サンプル分としたが、処理の複雑さを軽減するために仮に定めたスプライスポイントはもっと広く間隔を空けても良い。以下に記載するように、クロスフェード領域の幅は仮に定めたスプライスポイントのために適当に広げておく。スプライスポイントとエンドポイントの位置を選ぶという方法は、データ圧縮及びデータ拡張の両方の処理に適用される。このスプライスポイントとエンドポイントの位置を選ぶという代案は、オーディトリーシーンアナリシスに採用される本発明の特徴に関連して、以下にさらに詳細に説明するが、サイコアコースティックアナリシスを採用する最初に説明した本発明の実施例に、この代案を採用しても良い。
サイコアコースティックアナリシスの実施例
サイコアコースティックアナリシスを伴う本発明に係る単一又は多数チャンネルのタイムスケーリング及び/又はピッチスケーリング処理を説明するフローチャートを図5に示す。サイコアコースティックアナリシスとオーディトリーシーンアナリシスの両方を伴う本発明に係る単一又は多数チャンネルのタイムスケーリング及び/又はピッチスケーリング処理を説明するフローチャートを図17に示し、以下に説明する。本発明の他の形態は、図5と図17の処理の変形或いは一部をなす。この処理は、実時間のピッチスケーリングと実時間でないピッチ及びタイムスケーリングを実施するために用いることができる。異なる比率で再生するためには入力オーディオ信号をバッファしておかなければならず、バッファのアンダーフローやオーバーフローをもたらすため、待ち時間の少ないタイムスケーリング処理は実時間の場面では効率的に運用できない。すなわち、バッファは受け取った入力信号とは異なる比率では空になるのである。
入力信号202(図5)
図5において、最初のステップである決定ステップ(「入力データ?」)は、ディジタル化された入力データはデータ圧縮或いはデータ拡張処理が可能かどうかを決定する。データの発信源は、例えば、リアルタイムに入力バッファに蓄えることのできる、コンピュータのファイルやひとかたまりの入力データとすることができる。もしデータが有効であるならば、同時に発生したセグメントを表すN個の同期化されたひとかたまりのサンプルデータは、ステップ204(「各チャンネルのサンプルを入手」)で、データ圧縮又はデータ拡張処理のために入力チャンネルごとに1つのブロックとしてまとめられる(チャンネル数は1以上である)。処理に使われる入力データのサンプル数Nは、合理的なサンプル数に固定され、その数により入力データをブロックに分割する。原則として、処理するオーディオはディジタルでもアナログでも良く、ブロックに分割されている必要はない。
図5は、各オーディオチャンネルへの入力データが、サンプリングレートが44.1kHzで約93msecのオーディオ入力に該当するような、4096サンプルのブロックにデータ圧縮又はデータ拡張される本発明の実用的な実施例に関連して論じるものである。本発明の形態はこのような実用的な実施例に限定されないことは了解されよう。上述のとおり、本発明の種々の形態において本質的に、オーディオをサンプルブロックにしておくことを要求しないし、固定長さのブロックにして提供することも要求しない。しかし、複雑さを最小限にするため、4096サンプルに固定した長さのブロック(または、2つの番号を持つサンプルの他の能力)は主として3つの理由により有益である。1番目は、実時間での処理を行うアプリケーションの適用が可能なように十分短い待ち時間を提供することが可能なことである。2番目は、高速フーリエ変換(FFT)分析に有効な、サンプルの2つの番号の能力である。3番目は、サイコアコースティックな入力信号の有効な分析を実行するために適当な大きさの窓枠サイズを提供することである。
以下の議論において、入力信号は、振幅値が[−1,+1]のレンジを持つデータであると仮定する。
サイコアコースティックアナリシス206(図5)
以下の入力データブロックは、サイコアコースティックアナリシス206(「各入力データブロックにおけるサイコアコースティックアナリシス処理」)は各チャンネルへの入力データブロックに対して実行される。多数チャンネルの場合は、サイコアコースティックアナリシス206とそれに付随するステップはすべてのチャンネルに対して並列に処理するか、または、チャンネルからチャンネルへと(各チャンネルのデータと各々の分析に適当な記憶装置を準備することにより)順次処理することが可能である。並列処理は非常に高い処理能力を必要とするが、実時間処理のアプリケーションには並列処理が好ましい。図5の説明はチャンネルは並列に処理することを仮定する。
ステップ206の詳細は図6に示されている。アナリシス206では、サイコアコースティックな基準を満足する各チャンネルにデータブロック中に1以上の領域を定め(または、ある信号条件の下ではブロック中にこのような領域を定めない)、各定められた領域内に潜在的なあるいは一時的なスプライスポイントの1を決定する。チャンネルが一つしかない場合は、次のステップ210(「共通スプライスポイントの選択」)が省略され、ステップ206で決定された一時的なスプライスポイントの1つから選んだスプライスポイントの位置を用いることができる(基準の上下関係に従って「最適」な領域が選ばれることが好ましい)。多数チャンネルの場合は、ステップ210にて、定められた領域の再検査が行われ、共通に重なり合う領域を特定し、このような共通に重なり合った領域から最適なスプライスポイントを選ぶ。ここで、素プライスポイントは、必ずしもそうでなくてもよいが、ステップ206のサイコアコースティックアナリシスにおいて定めた一時的なスプライスポイントであってもよい。
オーディオのタイム及び/又はピッチスケーリングにおいて可聴なアーティファクトを最小限にするためのサイコアコースティックアナリシスの採用が、本発明の1つの特徴である。サイコアコースティックアナリシスには、上述の4つの基準、又は、他の、波形の接合から発生したり、タイム及び/又はピッチスケーリングを実行するときに発生したりするアーティファクトを減少又は最小限にするオーディオのセグメントを特定する、他のサイコアコースティックアな基準から1つ以上を適用することが含まれる。
図5の処理では、ブロック内にサイコアコースティックに特定された多数の領域があり、各々が暫定的に定めたスプライスポイントを有する。それでも、1つの実施例では、単一チャンネルの場合、各入力データブロック中にサイコアコースティックに特定された1つの領域の最大値がデータ圧縮又は拡張のためのデータとして選択されることが、また、多数チャンネルの場合、入力データの同時性のある各ブロック(各チャンネルへの1つのブロック)がデータ圧縮又は拡張のために選択されることが好ましい。多数の特定された領域又は多数の特定された領域の重複部分がブロックや入力部分にそれぞれあるとき、サイコアコースティックには、(たとえば、ここで述べた階層的に)「最良の」特定された領域又は、特定された領域の重複部分が選択されることが好ましい。
代案として、1以上の特定された領域、又は各ブロック内に又は、同時に入力されたブロックのセット内に特定された領域の1以上の重複部分は、各々、処理のために選択される。この場合、選択された領域はサイコアコースティックに(たとえば、ここで述べた階層的に)最適なものであることが望ましい。あるいは、特定されたイベントが選択可能としてもよい。
各特定された領域に暫定的なスプライスポイントを置く代わりに、単一チャンネルの場合は、スプライスポイント(この場合は「一時的」ではなく実際のスプライスポイント)を、処理のため特定された領域が選定された後、その特定された領域に置いてもよい。多数チャンネルの場合は、暫定的なスプライスポイントは、それらが重複していることが確認された後にのみ、特定された領域に置くことが可能である。
多数チャンネルがあるときは、共通のスプライスポイントは、一般的に各々のチャンネルの暫定的に各スプライスポイントとは違っているので、重複する領域に共通するスプライスポイントを選択すべきだから、多数チャンネルがあるときは、原則として暫定的なスプライスポイントの特定は必要でない。しかし、暫定的なスプライスポイントを特定しておけば、暫定的なスプライスポイント(これは実際のスプライスポイントになる)を要求する単一チャンネルとでも、暫定的なスプライスポイントを無視する多数チャンネルとでも、操作が可能となるので、詳細実行時には暫定的なスプライスポイントの特定は有効である。
図6は、図5におけるサイコアコースティックアナリシス処理206の動作のフローチャートである。サイコアコースティックアナリシス処理206は5つの概略的なサブステップにより成り立っている。最初の4つはサイコアコースティック基準による分析のサブステップで、最初のサブステップ又は最初の基準を満足するオーディオ領域は、最も非可聴又は最小可聴領域内にスプライス(又は他のタイム又はピッチシフティング処理)がある可能性が高く、それに続く基準は、非可聴又は最小可聴領域内にスプライスがある可能性は少なくなっている。
サイコアコースティック基準による分析の各サブステップは入力データブロックの64分の1のサイズを持ったサイコアコースティックサブブロックを採用する。この例では、サイコアコースティックサブブロックは、図8に示すように1.5msec(又は44.1kHzで64サンプル)である。サイコアコースティックサブブロックの大きさは必ずしも1.5msecである必要はないが、これは、実時間処理からの要求(より大きなサブブロックの大きさは、より小さなサイコアコースティック処理で済む)とサイコアコースティック基準を満足するセグメントの分解能(より小さなサブブロックはこのようなセグメントの位置により詳細な情報をもたらす)との二律背反をもたらすため、この値は、実際の実施例から決めたものである。一般的に、サイコアコースティックサブブロックの大きさは、サイコアコースティック基準による分析の各タイプと同じ大きさにする必要はないが、実用的な実施例では、実行がしやすいように、同じであることが望ましい。
トランジエントの検出206−1(図6)
処理206−1は、各チャンネルのデータブロックを分析し、もしあれば、オーディオ信号のトランジエントの位置を決定する。時間的なトランジエントの情報は、マスキングの分析と暫定的なスプライスポイントの位置決定のために用いられる(この例におけるサイコアコースティックアナリシス処理の最後のサブステップ)。先に論じたように、トランジエントは時間的なマスキング(トランジエントが発生した前と後ろの両方でオーディオ情報を隠す)をもたらすことは良く知られている。
図7に示されているように、トランジエント検出サブステップ206−1において最初のサブステップ206−1a(「全帯域幅オーディオ入力ハイパスフィルター」)は、入力データブロックにフィルターをかけることになる。入力ブロックデータは、例えば、約8kHZのカットオフ周波数を持った2次元IIRハイパスフィルターにより、ハイパスフィルターがかけられる。フィルターがかけられたデータは元のフィルターがかけられていないデータと共にトランジエント分析に使われる。全帯域幅とハイパスフィルターをかけたデータの両方を使うことは、音楽のような複雑な素材においても、トランジエントを定める能力を高める。「全帯域幅」のデータは、例えば非常に高い周波数や低い周波数に対してフルターをかけることにより、帯域幅を制限することができる。このデータは1以上の異なったカットオフ周波数を持ったフィルターを追加することでハイパスフィルターをかけることができる。信号の高周波トランジエント成分は、低周波成分よりも十分強度の小さい振幅を持つが、依然としてリスナーに聞こえる可能性が高い。入力データにフィルターをかけることは、高周波のトランジエントから独立させ、トランジエントを特定することが容易になる。
次のサブステップ206−1b(「全帯域幅及びフィルターされたオーディオサブブロックにおける最大絶対値サンプルの位置決め」)において、全帯域幅及びフィルターされた入力ブロックの両方が、全帯域幅及びフィルターされたオーディオのブロックにおける最大絶対値サンプルの位置を決めるため、図8に示すように、約1.5msec(又は44.1kHzで64サンプル)のサブブロックで処理される。
3番目の、トランジエント検出サブステップ206−1のサブステップ206−1c(「全帯域幅及びフィルターされたピークデータのローパスフィルターによる平準化」)は、サブブロックローパスフィルターの実行、又は64サンプルのサブブロックに含まれる絶対値の最大を平均化する(データ値を時間関数として扱う)。この処理は、絶対値データの最大を平準化し、実際のサブブロックの最大絶対値と比較できるような、入力ブロックにおける平均ピーク値の一般的な目安を与える。
3番目の、トランジエント検出サブステップ206−1のサブステップ201−1d(「全帯域幅及びフィルターされた各ブロックの絶対値のピーク値と平準化されたデータとの比較」)は、トランジエントの存在を検出するために、各サブブロックのピークと、それに対応する数の一連の平準化されたピーク値の移動平均値とを比較する。2つの値を比較する方法は多数存在するが、以下でおこなうやり方は、幅広いオーディオ信号の分析による決定が最適に実行できるようなスケールファクターを用いて比較の調整をおこなっている。
サブステップ206−1e(「スケール化データ>平準化データ?」)での決定では、K番目のサブブロックにおけるピーク値はスケール値で乗算され、平準化計算がなされた、ピーク値の移動平均値と比較される。もし、サブブロックのスケール化されたピーク値が移動平均値よりも大きければ、トランジエントが存在するとのフラグが与えられる。サブブロックないのトランジエントの存在とその位置は続く処理のために記憶される。この作業は、フィルターされないデータとフィルターされたデータの両方になされる。トランジエントが存在するとのフラグが与えられたサブブロック又はトランジエントが存在するとのフラグが与えられた一連の連続したサブブロックはトランジエントの存在と位置を示している。この情報は、例えば、トランジエントによってプレマスキング及びポストマスキングが適用されるところや、トランジエントに対する外乱を避けるために、データの圧縮あるいは拡張は避けるべきところを示すためのような、他の処理にも採用される(例えば、図6のサブステップ310参照)。
トランジエント検出に続いて、サブステップ206−1f(「トランジエント解消のための修正チェック実施」)にて、サブブロックの64サンプルに対するトランジエントフラグが解消(TRUEからFALSEへのリセット)されるべきかを決定するために、いくつかの修正のためのチェックがおこなわれる。これらのチェックは、間違ったトランジエントの検出を減らすために実施される。最初に、全帯域での又は高周波でのピーク値が最低ピーク値以下に落ちたならば、(ほんの少しの時間的マスキングしか、又はまったく時間的マスキングをもたらさないような低いレベルのトランジエントを削除するために)トランジエントは解消される。2番目に、サブブロックのピークはトランジエントを引き起こすものであるが、トランジエントフラグを引き起こしたであろうような、以前のサブブロックよりそれほど大きくない場合、このサブグロックのトランジエントは解消される。これはトランジエントの位置情報に対する誤りを減らす。各オーディオチャンネルに対し、トランジエントの数とそれらの位置は、後でサイコアコースティックアナリシスのステップで用いるために、記憶される。
本発明はここで記述した特定のトランジエント検出に制限されるものではない。他の適当なトランジエント検出方法も採用される。
可聴閾値分析206−2(図6)
図6を再度参照すると、サイコアコースティックアナリシス処理の2番目のステップ206−2、つまり可聴閾値分析は、十分低い信号強度を持ち、可聴閾値以下であると考えられるオーディオセグメントの位置と継続時間を決定する。上記で論じた通り、これらのオーディオセグメントが対象となる。なぜなら、タイムスケーリング及びピッチシフティングにより誘起されたアーティファクトはほとんどこのような領域内では可聴とならないためである。
上述の通り、可聴閾値は周波数の関数である(高・低周波数域のものは中間周波数のものより可聴性が低い)。実時間処理のアプリケーションにおける処理を最小限にするために、分析のための可聴閾値モデルは、可聴閾値が一定(最も感度の高い周波数帯域での可聴閾値をすべての周波数に適用する)と仮定してもよい。このような控えめな仮定をすることにより、聴感度曲線を仮定し、処理労力を下げるより前に、入力データに対する周波数に依存する処理を適用することにより要求水準を下げたときに比べて、オペレータにとって再生ボリュームを上げる余裕が大きくなる。
可聴閾値分析ステップはフィルターされていないオーディオに適用され、約1.5msecの入力(44.1kHzで64サンプルの入力データ)にも適用され、上述の平準化された移動平均計算を用いる。この計算に続いて、各サブブロックにおける平準化された移動平均値は、そのサブブロックは非可聴なサブブロックであるとしてフラッグ信号が出されるかどうかを決めるために、閾値と比較される。入力ブロックにおける可聴閾値以下の各セグメントの位置と継続時間は、この分析ステップにおいて後で使用するために、記憶される。一連の連続する十分な長さのフラッグ信号が出されたサブブロックは、サイコアコースティックな基準による可聴閾値以下であることを満足する指定領域を構成することが可能となる。最小長さ(時間間隔)は、指定領域がスプライスポイント或いはスプライスポイントとエンドポイントの両方に有効となる十分な長さとなることを確かなものとするように定められる。もし、単一の領域が入力ブロックにおいて特定されるべきであれば、一連の連続するフラッグ信号が出されたサブブロックの最も長いもののみを特定することが有効である。
高周波分析206−3(図6)
3番目のサブステップ、つまり高周波分析ステップは、支配的な高周波のオーディオ内容を持つオーディオセグメントの位置と長さを決める。高周波セグメントは、約10−12kHzであり、静かな状態での可聴領域は約10−12kHz以上に急激に上昇し、支配的な高周波の波形の不連続に対しては、支配的なより低周波の波形の不連続に対してより、耳の感度は鈍くなるため、高周波セグメントにおいてはサイコアコースティックアナリシスに関心が向く。オーディオシグナルの大部分が高周波エネルギーを有するかどうかを決定する有効な方法はたくさんあるが、ここで述べる方法は、良い検出結果をもたらしコンピュータの負担を最小限にするものである。とはいうものの、他の方法を採用してもかまわない。記載の方法は、その領域が強い低周波成分と高周波成分の両方を持っていた場合、その領域を高周波領域の範疇に入れない。これは、低周波成分は、データ圧縮又はデータ拡張処理がなされたとき、より可聴なアーティファクトを発生しやすいからである。
高周波分析ステップは、64サンプルのサブブロック内で入力ブロックに対して処理もおこない、各サブブロックは高周波が支配的なデータを含んでいないかどうかを決定するため、各サブブロックのゼロ点通過情報を用いる。ゼロ点通過閾値(すなわち、高周波オーディオブロックであるとの特定をおこなう前のブロックにおいてゼロ点通過が何回あるか)は、約10−12kHzの帯域の高周波に対応するように決められる。言いかえれば、サブブロックが少なくとも約10−12kHzの帯域の信号に対応するようなゼロ通過点(10kHzの信号には、44.1kHzのサンプリング周波数の64サンプルにおいて29ゼロ通過点を持つ)の数を含んでいる場合は、高周波数オーディオ内容を含むとのフラグ信号を出す。可聴閾値分析の場合のように、一連の連続するフラグ信号が出された十分な長さのサブブロックは、サイコアコースティックな基準を満たす高周波内容を満足する領域を構成する。最小長さ(時間間隔)は、指定領域がスプライスポイント或いはスプライスポイントとエンドポイントの両方に有効となる十分な長さとなることを確かなものとするように定められる。もし、単一の領域が入力ブロックにおいて特定されるべきであれば、一連の連続するフラッグ信号が出されたサブブロックの最も長いもののみを特定することが有効である。
オーディオレベル分析206−4(図6)
サイコアコースティックアナリシス処理の4番目のステップ206−4、つまりオーディオデータブロックレベル分析は、入力データブロックを分析し、入力データブロック内で最も低い信号強度の(振幅の)オーディオセグメントの位置を定める。このオーディオレベル分析情報は、処理仮定において活用されるサイコアコースティックなマスキングイベントが、現入力ブロックに含まれていない場合に、用いられる(例えば、入力がトランジエントを含まない定常状態であるばあい、またはオーディオセグメントが可聴閾値以下である場合)。この場合、好ましくはタイムスケーリング処理が、オーディオの最低レベルのセグメントが低レベルの又は非可聴のスプライシングによるアーティファクトになることを根拠として、入力ブロックのオーディオにおいて最低レベルの又は最も静かなセグメント(もしそのようなセグメントがあれば)を助ける。450Hzのトーン(正弦波)を用いた簡単な例を図9に示す。図9に示されたトーン信号はトランジエント、可聴閾値を下回る成分、或いは高周波成分を含まない。しかし、信号の中央部はブロック内の信号の最初と最後の部分に比べて6dB低い。音の大きい最後部分よりも、静かな中央部分に焦点を当てたほうが、オーディオデータの圧縮又はアーティファクトの処理におけるデータ拡張が最小限になると考えられる。
入力オーディオのブロックはいくつかの数の可変長さのオーディオレベルセグメントに分割することができるので、3つの部分中、残りの部分より音の静かな1つの部分、又は連続する2つの部分を探し出すことを目的として、オーディオデータブロックのレベル分析を各ブロック内の信号の1番目と、2番目と最後の3番目の部分について実行するために、ブロックを3つの長さの等しいパートに分割することが適当であることがわかった。代案として、可聴閾値以下と高周波基準に基づきブロックのサブブロックをアナログ的に分析し、サブブロックをブロックの最も音の小さい部分を構成する最長の連続する一連の信号のピーク値のレベルに従ってサブブロックのランク付けをおこなっても良い。いずれの場合も、最も音の静かな領域についてのサイコアコースティックな基準を満たす領域の特定が、出力として提供される。例えば、分析すべきブロック全体にわたって一定振幅の信号のように通常とは異なる場合を除いて、この最終のサイコアコースティックアナリシスは、一般のオーディオレベルで、「最後の手段」として特定された領域を提供する。ここに記載したようなサブステップの場合のように、最小長さ(時間間隔)は、指定領域がスプライスポイント或いはスプライスポイントとエンドポイントの両方に有効となる十分な長さとなることを確かなものとするように定められる。
スプライスポイントとクロスフェードパラメータの暫定的な設定206−5(図6)
図6のサイコアコースティックアナリシス処理の最後のサブステップ206−5(「スプライスポイントとクロスフェードパラメータの暫定的な設定」)では、これまでのステップで集めた情報を、入力ブロック中にサイコアコースティック的に最適な特定された領域を選定するために、そしてスプライスポイントとクロスフェードの長さを特定された領域内に設定するために用いられる。
クロスフェードパラメータの設定
先に述べたように、クロスフェードはオーディオアーティファクトを最小にするために用いられる。図10はクロスフェードの適用方法を概念的に描いたものである。クロスフェードの結果は波形が結合されるスプライスポイントを跨ることになる。図10において、スプライスポイントの前から始まる破線は、信号波形に適用された最大振幅から最小振幅へ非線形なダウンワードフェードを示し、スプライスポイントにて半分になっている。スプライスポイントを横切るフェードはt1からt2までとなっている。エンドポイントの前から始まる破線は、信号波形に適用された最小振幅から最大振幅への補完的な非線形アップワードフェードを示し、エンドポイントにて半分になっている。エンドポイントを横切るフェードはt3からt4までとなっている。増加方向のフェードと減少方向のフェードは対称的で和は一定である(ハニングとカイザー‐ベッセルの窓はこの特性を有する。従って、クロスフェードがこのような窓に従って形成されるのなら、この要求は満足される)。t1からt2までの継続時間とt3からt4までの継続時間は同じである。このような時間圧縮の例では、スプライスポイントとエンドポイントの間のデータは廃却されることが要求される(クロスアウトと表示される)。これはt2で表されるサンプルとt3であらわされるサンプルとの間のデータを廃棄することで達成される。次いで、t1からt2までのデータとt3からt4までが加算されるようにスプライスポイントとエンドポイントがお互いに(概念的には)重ね合わされ、互いに補完的な特性のアップワードフェードとダウンワードフェードとからなるクロスフェードが完了する。
一般に、長いクロスフェードは短いクロスフェードより接合時における可聴なアーティファクトを良好にマスクする。しかし、クロスフェードの長さは固定サイズの入力データブロックにより制限される。長いクロスフェードは、タイムスケーリング処理に用いることができるデータの数もまた減らす。これは、クロスフェードはブロックの境界(及び/又は聴覚イベントの境界、聴覚イベントを考慮に入れるなら)により制限され、現データ(及び/又は現聴覚イベント、聴覚イベントを考慮に入れるなら)の前後のデータはデータ圧縮又はデータ拡張処理及びクロスフェードには使うことが出来ないからである。しかし、短いクロスフェードの結果現れる可聴アーティファクトの一部又は全部は、トランジエントによりマスクされるため、トランジエントのマスク能力をクロスフェードの長さを短くするために使うことが可能である。
クロスフェードの長さはオーディオ内容に応じて可変であるが、広い対象範囲で接合時の可聴なアーティファクトを最小限にするので、最適なクロスフェードの長さの初期値は10msecとしている。トランジエントによるポストマスク及びプレマスクにより、クロスフェードの長さをいくらか短く、例えば5msec程度に、設定することができる。しかし、聴覚イベントを考慮に入れるなら、10msecより長いクロスフェードを特定の条件下では適用してもよい。
暫定的なスプライスポイントの設定
図6のサブステップ206−1で決定したように、トランジエント信号が存在している場合は、ブロック内のトランジエントの位置に応じて、また、トランジエントの繰返しや痕跡をなくすために(すなわち、トランジエントの一部もころすフェードの中にないことが望ましい)時間拡張又は圧縮処理が実行されたかどうかに応じて、暫定的なスプライスポイントがトランジエントの前後の時間的マスキング領域内のブロックに位置することが望ましい。トランジエント情報はクロスフェードの長さを決めるためにも使われる。1以上の使用不可能な時間的マスキング領域があるような2以上のトランジエントが存在する場合は、(例えばブロック内の位置や長さや強さを考慮して)最適なマスキング領域は、暫定的なスプライスポイントが置かれている特定された領域として選定される。信号トランジエントが存在しない場合は、スプライスポイントとクロスフェードパラメータの暫定的な設定をおこなうサブステップ206−5は、暫定的なスプライスポイントが存在するサイコアコースティックに決定される領域を探すために、可聴閾値セグメント、高周波数、及びサブステップ206−2と206−3と206−4の結果を分析する。もし、可聴閾値セグメント以下の2以上の低レベルセグメントが存在した場合は、暫定的なスプライスポイントが、そのようなセグメント又はそのような、例えば、ブロック内の位置と長さを考慮に入れて、最適セグメント内に設定される。可聴閾値セグメントより低いセグメントが存在しなかった場合、このステップでは、低レベルのオーディオセグメントを探し、1つ又は(例えば、ブロック内の位置と長さを考慮に入れて)最適のそのようなセグメント内に暫定的なスプライスポイントを設定する。その結果、暫定的スプライスポイントが各入力ブロックに置かれている、ただ1つの特定された領域が存在するようになる。以上に注記したように、稀にサイコアコースティックな基準を満たすセグメントがブロック内にない場合があり、このような場合は、そのブロック内には暫定的なスプライスポイントは存在しない。
代案として、サイコアコースティックアナリシスの詳細を論じる前に書いたように、各入力ポイントにサイコアコースティックな基準を満たすただ1つの領域を選択し(状況に応じて)暫定的なスプライスポイントをその特定された領域に配置する代わりに、サイコアコースティックな基準を満たす2以上の領域を選択し(状況に応じて)暫定的なスプライスポイントをそれらの各領域に配置することもできる。これにはいくつかの実行方法がある。例えば、順位の高いサイコアコースティックな基準の1つを満たし、スプライスポイントが(状況に応じて)その中に置かれるような領域が特定されたとしても、それに加えて、特定の入力ブロックの中に、サイコアコースティックな階層中では順位の低い2以上の特定された領域を選択し暫定的なスプライスポイントを各領域に置いてもよい。他の方法として、同じサイコアコースティックな基準を満足する複数の領域が特別なブロック中に見つかった場合は、このように追加する特定された領域の各々が利用可能であることを条件として、2以上のこれらの領域を選択してもよい(そして、暫定的なスプライスポイントを各領域に置いてもよい)。また別の方法としては、特定された領域によって、どのサイコアコースティックな基準が満たされるかどうかとは関係なく、サブブロック内に他の特定された領域があるかどうかで、すべての特定された領域を選び、状況に応じて各領域に暫定的なスプライスポイントを置く方法がある。各ブロックに複数の特定された領域があることは、以下に説明するように、多数チャンネル間で共通のスプライスポイントを見つけるのに有効である。
従って、図6(図5のステップ206)のサイコアコースティックアナリシス処理では、サイコアコースティックな基準に従い、入力ブロックに領域を特定し、これらの各領域内に、(状況に応じて)暫定的なスプライスポイントを置く。またこのプロセスでは、暫定的なスプライスポイントと各入力ブロック中にあるトランジエントの位置と数を定めるために用いる基準(例えば、トランジエントの結果のマスキングなのか、可聴閾値なのか、高周波数なのか、オーディオの最低レベルなのか)を特定する。これらトランジエントの位置と数はすべて、以下に説明するように、多数チャンネルにおいて共通のスプライスポイントを決定すること、及び他の目的のために有効である。
多数チャンネルの共通スプライスポイントの選定210(図5)
上述の通り、図6のサイコアコースティックアナリシス処理はすべてのチャンネルの入力ブロックに適用される。図5を再度参照すると、ステップ208(チャンネル数>1?)で判断されて、2以上のオーディオチャンネルが処理されている場合、ステップ206で選択的に暫定的なスプライスポイントが置かれたとき、この暫定的なスプライスポイントは多数チャンネルで同時的とはならない(例えば、一部またはすべてのチャンネルは他のチャンネルとは関係の内オーディオ内容を含んでいるかもしれない)。次のステップ210(「共通スプライスポイントの選択」)では、サイコアコースティックアナリシスステップ206により提供された情報を用いて、共通のスプライスポイントが、多数チャンネルにわたって同時的となるブロック内で選択することが可能なような、多数チャンネルの重複的な特定された領域を定める。
しかしながら、代案として、全体として最適なスプライスポイントのような共通するプライスポイントを、状況に応じて図5のステップ206で定められた各チャンネルにある1以上の暫定的なスプライスポイントから選ぶことが可能であり、図5のステップ206で定めた暫定的なスプライスポイントのすべてとは違っているかもしれないが、チャンネルにまたがって重なり合う特定された領域内に潜在的に存在する、さらに最適な共通のスプライスポイントを選ぶことが好ましい。
概念的には、各チャンネルに置いて特定された領域は、アンド条件で結び付けられ共通の重複セグメントを生ずる。ある場合は重複セグメントを生ぜず、選択的にブロックで2以上のサイコアコースティック領域を特定することを採用した他の場合は、2以上の重複セグメントを生ずることに注意すべきである。別のチャンネルでの特定された領域は、厳密に同時性がなくてもよく、各チャンネルの特定された領域にある、各チャンネルに置かれた共通のスプライスポイントが選ばれるように重複していれば十分である。多数チャンネルにおけるスプライス処理を選択するステップは各チャンネルの共通のスプライスポイントを選択するのみでデータそのものの内容や位置を修正したり変化させたりするものではない。
多数の重複領域がある場合は、処理に用いる1以上の重複領域の選定のために、例えば、サイコアコースティックな基準に基づく重複領域の序列を採用することができる。異なるチャンネルで特定された領域は同じサイコアコースティックな基準によるものでなくてよいが、基準のタイプがチャンネル間で分布していることは、重複領域における質に影響を及ぼす(質が最もよい場合は、重複領域で処理がなされたとき、可聴性が最も低くなる)。各チャンネルでサイコアコースティックな基準が満たされているかどうかを考慮に入れて、重複領域での質の序列が決められる。例えば、「トランジエントの結果としてのポストマスキング」基準がすべてのチャンネルで満たされているような重複領域には、最高の順位を与えることができる。「トランジエントの結果としてのポストマスキング」基準が1つを除くすべてのチャンネルで満たされ、それ以外のチャンネルは「可聴閾値以下」基準が満たされているような重複領域には、次の順位を可能である、等々。序列の枠組みの詳細はここではそんなに問題ではない。
代案として、多数チャンネルにまたがる共通領域を、そこには、すべてのチャンネルでなく、あるチャンネルについてのみサイコアコースティックに特定された重複する領域があったとしても、処理のために選択してもよい。この場合は、1以上のチャンネルでサイコアコースティックな基準を満たさないことが、可聴アーティファクトの障害にほとんどならないようにすべきことが望ましい。例えば、クロスチャンネルマスキングは、あるチャンネルは共通重複領域を必要としないことを意味する。例えば、他のチャンネルからのマスキング信号は、そのチャンネルだけ個別に聞いた場合は受け入れられないようなスプライスとなるような領域のスプライスの形成を可能とする。
共通スプライスポイントを選択する更なるバリエーションは、もしその暫定的なスプライスポイントを共通のスプライスポイントとした場合に、どの1つの暫定的なスプライスポイントもほとんどアーティファクトの障害とならないことを基準に、1つのチャンネルの暫定的なスプライスポイント共通のスプライスポイントとして選択することである。
処理の省略(skipping)
ステップ210(図5)の一部は、重複領域での序列は特定の重複領域は省略できるかどうかを決めるためにも使われる。例えば、すべての特定された領域が最低順位の基準、すなわち「最も静かな部分」のみを満足するような重複領域は、省略してよい。場合によっては、同時的な入力ブロックの特別な組合せに対するチャンネルにおいて共通の重複部分を特定することが出来ないかもしれないが、そのような場合は、ステップ210の一部として、その入力ブロックの組合せに省略フラグが設定される。省略フラグを設定する他の条件も存在する。例えば、1以上のチャンネルに多数のトランジエントが存在し、トランジエントを省略ないし繰返しをしなければデータ圧縮やデータ拡張処理の領域が十分でない場合、または、処理のための領域が十分でない場合は、省略フラグが設定される。
多数チャンネル内で、位相の整合性を保つためにオーディオセグメントを削除または繰返したとき同時的なブロックから共通のスプライスポイント(及び共通のエンドポイント)を選択することが好ましい。このことは、サイコアコースティックについての研究結果では、ステレオ音声のずれは、2つのチャンネルからの、44.1kHzでサンプルしたときの1サンプルの長さより短い時間に対応する、10μs(マイクロセカンド)の小さな違いをも認識することが出来ることを示唆していることから、特に2チャンネルの処理について重要である。サラウンド‐エンコードされたステレオチャンネル(surround-encoded stereo channel)において、位相の相互関係を維持しておくべきで、さもなければデーコードされた信号の質が劣化してしまう。
とは言うものの、すべてのチャンネルが完全には調整されたサンプルではないような、多数チャンネルのデータを処理すること(すなわち、少なくともあるチャンネルでは、調整されない独立のスプライスポイントとエンドポイント位置を持つチャンネルに対して処理すること)も実行可能である。例えば、L,C,R(左、中央、右)のチャンネル(映画用、またはDVD信号)のスプライスポイントとエンドポイントを並べて、LSとRS(左サラウンドと右サラウンド)のチャンネルを別々に処理してもよい。処理過程における少しの位相の相違は違いを最小にするためにブロック対ブロックベースで調整するような図5の処理過程における処理ステップと情報を共有することも出来る。
多数チャンネルスプライスポイントの選択
図11は、図5スの多数チャンネルスプライスポイントの選択における分析テップ210の詳細を示す。最初の処理ステップ210−1(「各チャンネルに特定された領域をサイコアコースティックに位置決めさせるためのブロック分析」)は、入力ブロックを分析し、各チャンネルに、上述のように、サイコアコースティックアナリシスを使って特定された領域の位置を決めさせるものである。処理ステップ210−2(「重複して特定された領域のグループ分け」)は、特定された領域の重複部分をグループ分けするものである(チャンネルにまたがって特定された領域をアンド条件で結合する)。次の処理ステップ210−3(「重複して特定された領域における優先順位に基づく共通スプライスポイントの選定・・・」)は、チャンネル間で共通スプライスポイントを選定する。多数の重複して特定された領域の場合は、各重複して特定された領域に関連する序列の基準は、前述の通り、好ましくはサイコアコースティックな基準による序列に従って、特定された領域の重複について順序付けを採用することができる。チャンネル間のマスキング効果についても、重特定された領域に置ける多数の重複に対する序列を考慮に入れてもよい。ステップ210−3は、各チャンネルに多数のトランジエントが存在するかどうか、お互いのトランジエントの近傍か、及び時間圧縮または拡張がなされているかどうかもまた考慮に入れている。エンドポイントがスプライスポイントの前に位置するか後に位置するかを示す(圧縮または拡張)処理のタイプも重要である(図2A−Dに関連して説明されている)。
図12は、各々のチャンネルのサイコアコースティックな処理において、データ圧縮またはデータ拡張処理を実行するのに適当であるとして特定された領域を用いて、時間尺度を圧縮する場合の共通多数チャンネルのスプライスポイントを選定する例を示す。図12のチャンネル1と3は、両者とも図に示すように有効な量の時間的なポストマスキングを提供するトランジエントを有している。図12のチャンネル2のオーディオは、データ圧縮またはデータ拡張処理に活用でき、チャンネル2のオーディオブロックの略後半部分に含まれる最静音部分を持つオーディオを有している。チャンネル4のオーディオは、データブロックの最初の3300サンプルにある、可聴閾値以下の部分を有している。図12の下部にある凡例は、可聴性を最低にして各チャンネルにおいてデータ圧縮またはデータ拡張処理が実行できるような、十分網羅的な領域を提供する共通の重複する特定された領域を示している。各特定された領域での暫定的なスプライスポイントは無視し、共通のスプライスポイントが特定された領域で共通の重複する部分において選択される。図12に示すように、特定された領域間での移行によるクロスフェードを妨げるために、及び潜在的なターゲットセグメントのサイズを最大にするために、共通のスプライスポイントは共通の重複する部分の始まりより少し後に位置させたほうが好ましい。
エンドポイント位置の選定
再度図11を参照すると、ステップ210−3で共通のスプライスポイントが特定されると、処理ステップ210−4(「・・・最小・最大エンドポイント位置の設定」)にて、タイムスケールレート(すなわち、データ圧縮またはデータ拡張に望ましい比率)で最小・最大エンドポイント位置を設定し、特定された領域内の重複する部分内に相関計算をおこなう領域を確保する。代案として、タイムスケールレートと特定された領域の大きさを相関計算に先だって考慮に入れる代わりに、ターゲットセグメントの長さを知る前に、最小・最大エンドポイント位置を、先に述べた7.5や2.5msecなどの既定値として定めてもよい。ステップ210−4では、最小・最大エンドポイント位置と共に、全チャンネルに対する共通の多数チャンネルスプライスポイントが出力される(図12に示す)。ステップ210−4では、ステップ206(図5)のサブステップ206−5(図6)で得られたクロスフェードパラメータの情報を出力する。最大エンドポイント位置は多数チャンネル間の又はクロスチャンネルのトランジエントが存在する場合には重要である。スプライスポイントは、データ圧縮またはデータ拡張処理がトランジエント間で発生するような所に設定されるのが望ましい。エンドポイント位置(従って、究極的には、スプライスポイントの位置、エンドポイント位置、及びクロスフェード長さにより決定されるターゲットセグメント長さ)を適切に設定するために、同じか違うチャンネルにおけるデータ圧縮またはデータ拡張処理と関連して他のトランジエントを考慮することは必要であろう。
ブロック処理の決定212(図5)
再度図5を参照すると、処理における次のステップは、入力ブロック処理における決定212(「複雑性に基づく省略?」)である。このステップは処理省略フラグがステップ210にて設定されているかどうかをチェックし決定する。もし処理省略フラグ設定されていたら、現ブロックのデータは処理されない。
相関計算214(図5)
現入力データブロックの処理が実行されることが決定された場合は、図5のステップ214で示したように、2つのタイプの相関計算処理がそのようなデータブロックについて提供される。データブロックの時間領域情報についての相関計算処理は、サブステップ214−1(「重み付け」)と214−2(「各ブロックの時間領域データの相関計算」)により提供される。入力信号の位相情報についての相関計算処理は、サブステップ214−3(「各ブロックの位相計算」)と214−4(「各ブロックの位相データの相関計算処理」)により提供される。入力ブロックデータの位相情報と時間領域情報の結合を用いることによって、時間領域情報のみを用いるより、スピーチから複雑な音楽に至るまでの信号レンジで質の高いタイムスケーリング結果をもたらす。代案として、性能を落としても問題ないと判断される場合は時間領域情報のみで処理してもよい。相関計算処理の詳細は、基本的な原理の説明に続いて、以下に説明する。
上記で論じ、図2A‐Dで示した通り、本発明の特徴によるタイムスケーリング処理は入力ブロックにおけるセグメントの削除又は繰返しにより機能する。もし、最初の実施例に従い、スプライスポイントとエンドポイントの位置が、与えられたスプライスポイントに対し、エンドポイントが信号の周期性を最大限に保持していたら、可聴性のアーティファクトは減少する。うまく選定されたスプライス及びエンド処理ポイントの周期性を最大限にする位置の例を図13に示す。図13に示された信号はスピーチ信号の高い周期性を持つ部分の時間領域に置ける情報である。いったんスプライスポイントが決められると、しかるべきエンドポイント位置を決定する方法が必要となる。それをおこなう場合において、人間の聴覚と関連した方法でオーディオに重み付けをおこない、その後相関計算処理をおこなうのが望ましい。信号の時間領域に置ける振幅データの相関計算は、エンドポイント位置を選定する上で有用な、信号の周期性に対する使い勝手のよい評価を与える。重み付をおこない時間領域において相関計算処理を実行することができるが、周波数領域でそれをおこなうことも計算としては効率的である。高速フーリエ変換(FFT)を、信号の相関計算処理におけるフーリエ変換に関係する信号のパワースペクトルを効率的に計算するために用いることができる。例えば、Numerical Recipes in C, The Art of Scientific Computing のセクション12.5“Correlation and Autocorrelation Using the FFT”William H. Press他、 Cambridge University Press, New York, 1988, pp.432-434参照のこと。
適切なエンドポイント位置は入力データブロックの位相と時間領域の情報の相関を用いて決定する。時間圧縮のためには、スプライスポイント位置と最大処理ポイントとの間のオーディオの自己相関が用いられる(図2A,3A,4参照)。自己相関計算が用いられるのは、データの周期性の程度を与え、オーディオの支配的な周波数成分において組み込まれた数のサイクルをどのように削除するかを決める手助けとなるためである。時間拡張のためには、スプライスポイント位置の前後のデータの自己相関がオーディオの継続時間を増大するために繰返されるデータの周期性を評価するために計算される(図2C,3B,4参照)。
相関(時間圧縮では自己相関、時間拡張では相互相関)計算は、スプライスポイントで始まり、前回の処理における最大処理長さ(ここで、最大処理長さは、エンドポイントの後にクロスフェードがある場合は、最大エンドポイント位置にクロスフェード長さの半分を加えたもの)または、全体的な最大処理長さ(最大処理長さの既定値)のどちらかで終了する。
周波数により重み付けがおこなわれた時間領域における相関は、各入力チャンネルのブロックに対して、サブステップ214−1にて計算される。周波数による重み付けは、人間の聴覚で最も感度のよい周波数範囲に相関計算処理の焦点を絞るためにおこなわれ、相関計算処理の前に時間領域のデータにフィルターを掛ける代わりとなる。数々の異なる重み付けをおこなったオーディオ曲線(loudness curve)が使用可能であるが、1つの適切なものとして修正されたBウエイトオーディオ曲線(B-weighted loudness curve)がある。修正された曲線は、以下の式を用いて計算された標準のBウエイト曲線である。

Rb(f) = 12200 2 * f 3
(f2 + 20.62)(f2+122002)((f2+158.52)0.5)

低周波成分(約97Hz以下)では0.5に設定される。
低周波信号成分は、非可聴であっても、スプライスが高周波でのアーティファクトを発生すればそれは可聴である。従って、低周波数成分に対して、修正されない標準のBウエイト曲線で与えられるものより大きなウエイトを与えることが望ましい。
以下の重み付けに従い、プロセス214−2で、時間領域での相関が以下のとおり完了する。
1)x(n)を変数としてLポイントのシーケンス(2乗となる)が形成され、
2)x(n)によりLポイントFFTを計算し、
3)FFTの結果をそれ自身と重畳し、
4)LポイントのFFT逆変換計算を行い、
ここで、nは、相関処理領域において、サンプルまたはインデックス番号を示すオーディオサンプルを表し、入力データブロックに含まれる時間領域のディジタル化されたデータであり、長さLは処理におけるサンプルの数より2のべき乗分大きい。
上述のとおり、重み付けと相関計算は、重み付けされたオーディオ曲線により周波数領域で相関計算されるように、信号を乗算することにより効率的に実施される。この場合、FFTは重み付けと相関計算の前に適用され、重み付けは相関計算の間に行われそして逆FFTが計算される。時間領域でなされようと周波数領域でなされようと、相関計算の結果は次のステップにおける処理のために保存される。
図5に示すように、各入力チャンネルのデータブロックでの位相の瞬時値はサブステップ214−3にて計算される。ここで、位相の瞬時値は以下のように定義される。

Phase(n) = arctan(imag(analytic(x(n)) / real(analytic(x(n)))

ここで、x(n)は相関計算処理領域でのオーディオサンプルを表す入力データブロックに含まれる時間領域でのデータをディジタル化したもので、nはサンプルまたはインデックス数を表す。
関数analytic( )は、複素数分析のx(n)に対するバージョンを示す。分析信号はx(n)のヒルベルト変換を用いることにより生成されるもので、x(n)の実部と、x(n)のヒルベルト変換を虚部とする複素数信号を生成する。この計算において、分析信号は、入力信号x(n)のFFTを用いることによって効率的に計算され、周波数領域における信号の逆位相の周波数成分からゼロ点が計算される。この結果が複素数分析信号となる。x(n)の位相は、分析信号の虚 部を分析信号の実部で割ったarctangentを用いて計算される。x(n)の分析信号の位相瞬時値は、x(n)の周期性の分析の手助けをする信号のローカルな振る舞いに関連して、重要な情報を含むため、計算に用いられる。
図14は、時間領域の信号x(n)に重ねた、ランダムなスピーチ信号の位相瞬時値を示す。「位相瞬時値」は、Digital and Analog Communication Systems by K. Sam Shanmugam, John Wiley &Sons, New York 1979, pp. 278 - 280のsection6.4.1 (“Angle Modulated Signals”) に発表されている。位相と時間領域の特性の両方を考慮に入れて、スプライスポイントで波形を一致させる能力の制度を上げる付加的な情報が得られる。スプライスポイントでのゆがみを最小限にすることは望ましくないアーティファクトを減少させる傾向にある。
時間領域の信号x(n)は、x(n)の分析信号の位相瞬時値に、以下のように関連している。

Negative going zero crossing of x(n) = + π/2 in phase
Positive going zero crossing of x(n) = - π/2 in phase
Local max of x(n) = 0 in phase
Local min of x(n) = ±π in phase

これらの写像は、介在点とともに、x(n)の振幅と独立した情報をもたらす。各チャンネルのデータの位相計算に続いて、各チャンネルの位相情報についての相関はステップ214−4にて計算され、後の処理のため保存される。
多数相関計算処理
各入力チャンネルのデータブロックに対して、いったん位相および時間領域での相関計算がなされると、図5ステップ216(「クロスフェード位置決定のための多数相関計算処理」)が、図15に詳細を示すように、その処理を行う。図15は、音楽を含む、5つの(左、中央、右、左サウンドおよび右サウンド)入力チャンネルの位相および時間領域での相関を示す。概念的に図16で示した相関計算処理ステップは各チャンネルの位相および時間領域での相関を入力として受け取り、重み値を乗算し、すべてのチャンネルにおける時間領域および位相の相関情報を形成するためにそれらを、総計する。言いかえれば、図16の構成は10の別々の相関を加え合わせるスーパー相関機能であると考えることができる。図16の波形は、最大と最小のエンドポイント位置間の約500のサンプルについて望ましいエンドポイントを構成する最大相関値を示している。この例では、スプライスポイントはサンプル0のところにある。重み値は、具体的なチャンネルまたは相関タイプ(例えば時間領域と位相)が、多数チャンネル全体に対して主要な役割を果たすように選ぶことが可能である。重み値はまた他の信号に対して周期性を強調するような相関機能におけるサンプル点を関数として選択してもよい。簡単であるが、重み付け関数は、チャンネル間では相対的な音の大きさに対する有用な対応である。このような重み付けは無視できるような低い信号の寄与を最小限にすることができる。例えば、トランジエントに対してより大きな重み付けを与えてもよい。スーパー相関の目的は、できるだけ良い共通エンドポイントを見つけるためおのおのの相関の重み付けを統合することである。多数チャンネルにおいては異なる波形であるため、理想の答えはなく、また共通のエンドポイントを見つけるための理想的な方法もない。その代わりとして以下に、一組のスプライスポイントとエンドポイントの位置を見つける方法を説明する。
重み付けされた各相関は、すべてのチャンネルの全体的特性に知見を与える。全体の相関計算結果は、スプライスポイントと最大相関処理位置との間の処理領域で見つけられ、最大相関処理位置は相関の最大値を決める。
処理ブロック決定ステップ218(図5)
図5の説明に戻って、ブロック処理決定ステップ218(「ブロック処理」)では、要求される時間圧縮度(縮小度)と比較して、どれだけ時間圧縮(縮小)されたかを比べる。例えば時間圧縮の場合、この決定ステップにより、必要な圧縮度と比べてどれだけの圧縮がなされたかの累積的な追跡を続ける。出力時間圧縮度(縮小度)は、ブロックごとに異なり要求時間圧縮度(縮小度)の近傍で少しずつ異なる(与えられた時間における要求量より大きくなったり小さくなったりすることがある)。時間同時的な(「現在の」)ブロック(時間同時的なオーディオセグメントの入力データブロックのセットで、各チャンネルに1ブロックある)に1つの重複領域のみしか許されない場合は、そのブロックの処理決定ステップでは要求される時間圧縮度(縮小度)と出力時間圧縮度(縮小度)とを比較し、現在の入力データに処理を行うかどうかを決める。この決定は共通の重複領域、もしあれば、現在のブロックにおけるターゲットセグメントの長さを基準になされる。例えば、時間圧縮度(縮小度)として110%が要求され、出力時間圧縮度(縮小度)が要求時間圧縮度(縮小度)を下まわる場合、現在の入力ブロックが処理される。他の場合は、現在の入力ブロックは処理が省略される。時間同時的な入力ブロックのセット中に、もし1以上の共通重複領域が許されるのなら、ブロック処理決定ステップでは、1つの重複領域に対して処理を行うのか、2以上の重複領域に対して処理を行うのか、あるいは、現在のブロックの処理を省略するのかを決める。代案として、処理するか、処理を省略するかを決める他の基準を設けても良い。例えば、現在のブロックの処理を省略するかどうかを、現在蓄積された拡張または圧縮が、要求された程度以上かどうかを基準にする代わりに、現在のブロックに対する処理の結果が、反対側ではエラーとなっていても、要求された程度まで、蓄積された拡張または圧縮を変化させるのかどうかを基準としても良い。
クロスフェード処理220(図5)
スプライスポイントとエンドポイントの位置を決めブロック処理を行うかどうかの決定の後、各チャンネルのデータブロックは、図5のステップ220(各チャンネルのブロックのクロスフェード)のクロスフェードブロックにより処理される。このステップは各チャンネルのデータブロック、共通スプライスポイント、共通エンドポイント及びクロスフェード情報を受け取る。
再度図10を参照すると、適切な形のクロスフェードが入力データに適用され、ターゲットセグメント(図6に示す)が削除または繰返されて、2つのセグメントが互いに接合される。クロスフェードの長さは最大10msecが望ましいが、先の分析ステップで取得したクロスフェードパラメータによっては短くしても良い。しかし、オーディトリーイベントを考慮に入れるなら、以下に説明するように、長いクロスフェードは、一定の条件下で採用することが可能である。例えばハニング窓の半分の形に関する非線形クロスフェードは、特にトーンやトーンスイープのように、単純な単一周波数の信号に対しては、ハニング窓は直線(線形)クロスフェードの傾きに対する非連続性を持たないため、線形クロスフェードより、可聴なアーティファクトを減少させる。上昇と下降クロスフェードが50%であり、クロスフェード期間中の全期間にわたって一様であることを条件として、カイザー・ベッセル窓のような他の形でも、満足な結果が得られる。
ピッチスケーリング処理222(図5)
クロスフェード処理に続いて、図5の決定ステップ(「ピッチスケール?」)では、ピッチシフティング(スケーリング)を行うべきかを決めるためにチェックを行う。先に論じたとおり、バッファがアンダーフローするかオーバーフローしてしまうので実時間で行うことができない。しかし「再サンプリング」ステップ224(「全データブロックの再サンプリング」)動作があるため、ピッチスケーリングは実時間で可能である。この再サンプリングは異なったレートでサンプリングを読み込む。ディジタル的ない固定出力ブロックによる実施は、再サンプリングにより完成される。このように再サンプリングステップ224では、時間圧縮または拡張された入力信号を再サンプリングし、入力信号と同じ時間展開または継続時間を持つが、スペクトル情報が変化した、ピッチスケーリングをもたらす。実時間実施では、再サンプリングは、DSP実施における計算負荷を軽減するため、サンプルレートコンバータ専用ハードウェアにより実行することもできる。出力サンプリングレートを一定に保持するかまたは、入力サンプルレートと出力サンプルレートを同じに保つことが望ましいときのみ、再サンプルが必要となることに注意すべきである。ディジタルシステムにおいては、一定の入力サンプリングレートまたは同じ入・出力サンプリングレートは普通に必要とされる。しかし対象の出力がアナログ領域に変換されるのならば、出力サンプリングレートは問題ではない。したがって、サンプリングは本発明の必須構成要件ではない。
ピッチスケールの決定と必要な再サンプリングに続いて、すべての処理入力データブロックがステップ226(「データブロックの出力処理」)で、実時間ではない操作ではファイルに、実時間操作では出力データブロックに出力される。次いで、追加された入力データをチェックし、処理の実施を続ける。
サイコアコースティックアナリシスおよびオーディトリーシーンアナリシスの実施例
本発明の特徴であるサイコアコースティックアナリシスとオーディトリーシーンアナリシスの両方を用いた多数チャンネルのタイム又は/及びピッチスケーリング処理の実施例を図17に示す。処理は、入力信号サンプルにより表される1以上のディジタルオーディオチャンネルであり、各チャンネルでの連続したサンプルが4096のサンプルからなるブロックに分割される環境で説明したが、これらの実施形態は必須ではない。原則としてこのオーディオ処理はディジタルでもアナログでもよく、ブロックに分ける必要もない。
図17を参照すると、最初のステップ、決定ステップ702(「入力データ?」)は、入力オーディオデータはデータ圧縮またはデータ拡張処理が可能かどうかを決めている。データの入力元はコンピュータファイルまたは入力ブロックとすることができ、例えば実時間入力バッファに記憶される。データが有用であれば、時間同時性を示すN個の時間同期されたサンプルのデータブロックがステップ704(「各チャンネルでNサンプルを取得」)にて1つのブロックに蓄積され、入力チャンネルの各々がデータ圧縮又はデータ拡張の処理がなされる(チャンネル数は1以上である)。処理に用いられる入力データサンプル数Nは、妥当なサンプル数に固定することが可能である。原則として、処理されたオーディオはディジタルでもアナログでもよく、ブロックに分割する必要もない。
図17は、オーディオの各チャンネルについて44.1kHzの入力サンプリングレートの約93msecに対応する4096サンプルのブロックにおいてデータ圧縮又はデータ拡張の処理がなされる、本発明にかかる実際の実施例に基づいて論じている。本発明の特徴はこの実際の実施例に限定されないことは了解されよう。上述のとおり、本発明のさまざまな特徴の本質は、オーディオをサンプルブロック内に配置することを必要とせず、固定長のブロックを用意する必要としない。しかし、複雑さを最小限にするために、4096サンプル(または他の2の累乗のサンプル)の固定ブロック長とすることは、主として3つの理由により有益である。第1に、実時間処理のアプリケーションにたいして、短い待ち時間が可能であるからである。第2に、これは、高速フーリエ変換(FFT)分析に有効な、2の累乗数のサンプルであるからである。第3に、有効な入力信号のオーディトリーシーンアナリシスとサイコアコースティックアナリシスを実行するために、適切な大きさの窓サイズを提供するからである。
以下の議論では、入力信号は、振幅が[−1,+1]のレンジであることを仮定する。
オーディトリーシーンアナリシス706(図17)
オーディオ入力データブロック分けに続いて、各チャンネルの内容は、各々が別のものとして認識されるような、オーディトリーイベントに分割される(「各チャンネルのブロックに対するオーディトリーシーンアナリシスの実施」)(ステップ706)。多数チャンネルの場合は、オーディトリーシーンアナリシス706戸それに付随するステップは、並列に又はチャンネルからチャンネルへと順次に処理される。並列処理は、大きな処理能力を必要とするが、実時間アプリケーションには望ましい。図17の説明はチャンネルは並列に処理されることを仮定している。
オーディトリーシーンアナリシスは、上述のオーディトリーシーンアナリシス(ASA)により実施してもよい。ここでは、オーディトリーシーンアナリシスを実行するための1つの適切な処理について説明する。本発明では、ASAを実行する他の有益な技術をも意図している。オーディトリーイベントは妥当な程度に一定であると認識されるので、オーディトリーシーンアナリシスは、高品質の時間及びピッチスケーリングについての重要な情報をもたらし、処理に伴う可聴なアーティファクトの発生を削減する。オーディトリーイベントを特定し、続いて、別々に処理することで、時間及びピッチスケーリングに伴い発生したアーティファクトを大幅に減少させることができる。
図18は、図17のオーディトリーシーンアナリシスステップで用いることができる元発明の技術にしたがった処理の概要を表している。ASAステップは、3つの概略サブステップからなる。第1のサブステップ706−1(「入力オーディオブロックのスペクトルプロファイルの計算」)入力ブロックからN個のサンプルを獲得し、サブブロックに分けサブブロック毎にスペクトルのプロファイル又はスペクトルの内容を計算する。このようにして、第1のサブステップはオーディオ信号の時間的に連続するセグメントのスペクトルの内容を計算する。現実の実施例では、以下に説明するように、このASAサブブロックサイズは入力データブロックサイズ(例えば4096個のサンプル)の8分の1のサイズ(例えば512個のサンプル)である。第2のサブステップ706−2では、サブブロックからサブブロックまでのスペクトルの内容の差が決定される(「スペクトルプロファイルの差異の計測」)。このようにして、第2のサブステップは、オーディオ信号の連続するタイムセグメント間のスペクトルの内容の差異を計算する。第3のサブステップ706−3(「オーディトリーイベントの境界の特定」)では、あるスペクトルプロファイルのサブブロックと次のサブブロックのスペクトルの差が閾値より大きいとき、そのサブブロックの境界は、オーディトリーイベントの境界とみなす。このようにして、連続するタイムセグメント間のスペクトルプロファイルの内容の相違が閾値を超えたとき、第3のサブステップは、連続する時間セグメント間のイオーディトリーイベントの境界と定める。上述のように、オーディトリーイベントの始まりと終わりの説得力のある指標は、スペクトルの内容を変化させると考えられる。
本実施例では、オーディトリーイベントの境界は、サブブロック(本例では512個のサンプル)のスペクトルプロファイルの最小長さを持つ多数のサブブロックのスペクトルプロファイルを累積した長さを持つオーディトリーイベントを定義する。原則として、イベントの境界はそのように限定される必要はない。入力ブロックのサイズは、入力サイズが可変でない限り(ここで論じている実際の実施例の代わりに、オーディトリーイベントのサイズを基本とするために、入力ブロックのサイズを可変としてもよい)、オーディトリーイベントの最大長を制限することにも注意しなければならない。
図19はスペクトルのプロファイルを変える時間計算の概略を示す。図19において、オーディオの重複セグメントは、窓にいれられ入力オーディオのスペクトルプロファイルを計算するために用いられる。重複により、オーディトリーイベントの位置については、より精密な分解能が得られ、また、トランジエントのようなイベントが見逃されることもほとんどなくなる。しかし、時間分解能を高めるにつれて、周波数分解能は低下する。重複により計算における複雑さは増大する。従って、実際の例は、以下のとおり進められ、重複は除外される。
以下の変数を入力ブロックのスペクトルプロファイルの計算に使うことができる。

N =入力オーディオブロックのサンプル数
M =スペクトルプロファイルの計算に使われる窓枠内のサンプル数
P =スペクトル計算の重複サンプル数
Q =計算されたスペクトル窓及び領域数

原則として、どんな整数を上記変数として使ってもよい。しかし、スペクトルプロファイルの計算に標準的なFFTを使うことができるように、Mは2の累乗にしておけば、計算はもっと効率的になる。加えて、N,M,及びPをQが整数になるように選定すれば、N個のサンプルブロックの終端でオーディオのアンダーランニング(under-running)やオーバーランニング(over-running)を避けることができるだろう。オーディトリーシーンアナリシス処理における実際の実施例では、上掲の変数は以下のように定められる。

N =4096サンプル(又は、44.1kHzで93msec)
M =512サンプル(又は、44.1kHzで12msec)
P =0サンプル
Q =8ブロック

上掲の変数は実験により求められたもので、おおむね、タイムスケーリングとピッチシフティングを目的としてオーディトリーイベントの位置と継続時間の十分な精度を満たすとみなされることが分かった。しかし、Pの値を256サンプル(50%重複)にすることは、見つけにくいイベントを特定するのに有益であることが分かっている。窓関数に起因するスペクトルアーティファクトを最小限にするために多くの異なるタイプの窓関数が使われるが、スペクトルプロファイルの計算に使われる窓関数は、Mポイント・ハニング、カイザー・ベッセルその他の適当なもので、非方形の窓関数が望ましい。広範囲にわたる試験の結果、広い範囲のオーディオ素材にわたって優れた成果をあげたことから、上記値とハニング窓を選択した。非方形の窓は、低周波の内容が支配的なオーディオ信号の処理に望ましい。方形窓は、イベントの不適切な検出の原因になるスペクトルアーティファクトを作る。
サブステップ706−1で、M個のサンプルのサブブロックは、Mポイント・ハニング、カイザー・ベッセルその他の適当な窓関数にてデータが窓化されて計算することができ、M・ポイント高速フーリエ変換を用いて周波数領域に変換され、FFT係数の振幅が計算される。結果出てきたデータは、最大振幅を単位と定めるように正規化され、正規化されたM個の数値は対数領域に変換される。これらの数値群は対数領域に変換する必要はないが、変換することはサブステップ706−2での差異の大きさの計算を簡単にする。さらに、対数領域は人間の聴覚システムの対数領域での特性と親密な整合性がある。対数領域における値はマイナス無限大からゼロまでである。実際の実施例では、最小リミット値がこのレンジに重ねあわされる。すなわち、リミット値を例えば−60dBに固定、あるいは、高周波数では小さい静かな音の可聴性が低いことを反映して、周波数に依存した値にすることができる。(正の周波数と同様に負も示すFFTにおいて、数値群をM/2個のサイズに減らすことも可能なことに注意すべきである)。
サブステップ706−2では、隣り合うサブブロックのスペクトルの間の差異の大きさの計算を行う。各サブブロックについて、サブステップ706−1からのM(対数)個のスペクトル係数の各々を先行するサブブロックの対応する係数から減算し、その差異の大きさを計算する。これらのM個の差異は加算されひとつの数となる。すべてのオーディオ信号に対して、結果はQ個の正数群となり、数値が大きければ大きいほど、サブブロックのスペクトルが、先のサブブロックとは異なっている。差異の大きさの計算値は、和の計算で用いたスペクトル係数の数で、この差異の計算値を割ることによりスペクトル係数ごとの平均差異を示させることも可能である(この場合はM個の係数)。
サブステップ706−3では、サブステップ706−2で計算した差異の数値群に閾値を適用することでオーディトリーイベントの境界の位置を定義する。差異が閾値を上回っていると判断したとき、スペクトルの変化は新しいイベントの信号を送るのに十分だと判断され、変化の数はイベントの境界として記録される。上記で与えられたM,N,P及びQと(サブステップ706−2の)dB単位で表した対数領域での値に対して、閾値は、FFT強度全体と比較する場合(鏡像部分も含む)は、2500に設定され、FFT強度の半分と比較される場合(先に注記したように、FFTは正の周波数と同様に負も示す。従って、FFTの強度については、一方は他方の鏡像となる)は、1250に設定される。この値は、試験的に選ばれたものであり、イベントの検出を減らしたり(閾値を増大する)、増やしたり(閾値を減少する)することが可能である。
この現実的な実施例は決定的なものではない。連続するタイムセグメント間の相違を計算し、このような連続するタイムセグメント間でのスペクトルプロファイルの内容の相違が閾値を超えたとき、連続するタイムセグメント間の各々の境界にオーディトリーイベントの境界を設定するような、連続するオーディオ信号のタイムセグメントのスペクトルの内容を計算する他の方法を適用してもよい。
図17で、ステップ706のオーディトリーシーンアナリシス処理の出力は、オーディトリーイベントの境界の位置、入力ブロック内で検出されたオーディトリーイベントの数、及び、N点入力ブロックに対して計算された最後の、又はL番目の、スペクトルプロファイルブロックである。先に説明したように、オーディトリーアナリシスは各チャンネルの入力データブロックに対して1回実行される。ステップ7102関連して、以下に詳述するように、2以上のチャンネルが処理される場合は、すべてのチャンネルに対する全オーディトリーイベントの概要を作成するために、オーディトリーイベントの情報が結合される(「結合されたオーディトリーイベント」セグメントを作成する)。これは多数チャンネル処理の位相の同期をおこなうという機能を果たす。このように、多数オーディオチャンネルは、お互いに混合して1つの複雑なオーディオシーンを作る多数の独立したオーディオの「トラック」と考えることができる。2チャンネルのイベント検出処理の例を図20に示し、以下に説明する。
オーディトリーイベントのサイコアコースティックアナリシス708(図17)
再度図17を参照すると、入力データブロック化とオーディトリーシーンアナリシスに続いて、サイコアコースティックアナリシスが各オーディトリーイベントの入力データブロックにおいて実行される(「各ブロックの各イベントに対するサイコアコースティックアナリシスの実施」)(ステップ708)。原則として、サイコアコースティックな特性は、オーディトリーイベント内でのオーディオが一定であることが妥当であると認識されるため、オーディオチャンネルにおいてオーディトリーイベントの長さ全体又は時間全体にわたって、実質的な一様性を維持する。このように、オーディオ情報は、ここで公開された実際の例では512個のサンプルを見るオーディトリーイベント検出処理における場合に比べて、ここで公開された実際の例では64個のサンプルブロックを見るサイコアコースティックアナリシス処理における場合にはさらに精密に検査するとしても、サイコアコースティックアナリシス処理は、原則的に、オーディトリーイベントの全体にわたって1つの支配的なサイコアコースティックな状況を見つけ、しかるべくレッテルを貼るのである。図17の処理の一環として実行されたサイコアコースティックアナリシスは、すべての入力ブロック全体というより入力ブロック内での各オーディトリーイベントに主として適用される点で、図5の処理の一環として実行されるものと異なる。一般に、オーディトリーイベントのサイコアコースティックアナリシスは2つの重要な情報を提供する。第1は、入力信号のイベントのどちらが、もし実行した場合、可聴なアーティファクトを発生しやすいかを特定し、第2は、入力信号のどの部分が、実行された処理を有利にマスクするのに使うことができるかを特定する。図21は、上述したサイコアコースティックアナリシス処理に用いられる図6の処理と同様の処理がおこなわれる。サイコアコースティックアナリシス処理は、概略4つの処理サブステップからなる。前述のように、各サイコアコースティックな処理のサブステップは、スペクトルプロファイルサブブロックの8分の1の大きさ(又は、入力ブロックの64分の1の大きさ)のサイコアコースティックなサブブロックを採用する。このように、この例では、図22に示すように、サイコアコースティックなサブブロックは約1.5msec(又は、44.1kHzにおいて64サンプル)である。サイコアコースティックなサブブロックの実際の大きさは、無理に1.5msecにされるものでもなく違った値としてもよいが、この大きさは、実時間処理からの要求(サブブロックのサイズを大きくするにつれて、サイコアコースティックな処理に必要な能力は小さくて済む)とトランジエント位置の分解能(サブブロックを小さくすれば、トランジエントの位置についての情報が増える)とのトレードオフを生じるので、現実的な実施に適するように選定される。原則として、サイコアコースティックなサブブロックのサイズは、すべてのタイプのサイコアコースティックアナリシスに対して同じでなくてもよく、実施対象に応じて現実的に具体化することが望ましい。
トランジエントの検出708−1(図21)
図21を参照して、第1のサブステップ708−1(「トランジエント検出/マスキング分析の実施」)は、各オーディオチャンネルの入力ブロックにおける各オーディトリーイベントセグメントを分析し、このセグメントにトランジエントを含んでいるかどうかを決定する。このサブステップは、ASA処理のスペクトル変化の局面で、本来的にトランジエントを考慮に入れ、オーディトリーイベントとしてトランジエントを含むオーディオセグメントを特定したとしても、必要である。なぜなら、ここで説明するスペクトルを基準としたASAは、オーディトリーイベントがトランジエントを含むかどうかでオーディトリーイベントを特定するのではないからである。得られた時間的トランジエント情報は、分析結果をマスクし、あるいは、暫定的な又は共通のスプライスポイントの位置を決める手助けをする。上述のように、トランジエントは時間的マスキング(トランジエントの発生前後で、オーディオ情報を隠すこと)をもたらすことはよく知られている。特定のブロックにおけるオーディトリーイベントセグメントは、トランジエントに、そのトランジエントが全長さを又はそのイベントの全時間的期間を占有しているかどうかを示す目印をつけておくことが望ましい。サイコアコースティックアナリシスステップにおけるトランジエント検出処理は、オーディトリーイベントを構成する入力ブロックのセグメントだけを分析する点を除いて、本質的に上述のトランジエント検出処理と同じである。従って、トランジエント検出処理の詳細については、上述の図8における処理フローチャートを参照してもよい。
可聴閾値分析708−3(図21)
図21を再度参照すると、サイコアコースティックアナリシス処理の第2のステップ780−2、すなわち「可聴閾値分析の実施」サブステップは、各オーディオチャンネルの入力ブロックのオーディトリーイベントを分析して、各セグメントが、可聴閾値以下と考えてよいほど十分小さい信号強度であるかどうかを決定する。先に説明したように、オーディトリーイベントは、その境界がサブブロックのサイズのスペクトルプロファイルの細かさに応じて変化する可能性があるのは当然のこととして(すなわち、オーディオはイベント境界での細かさ以外にもその特性が変化する)、オーディトリーイベントの長さ又は時間的期間全部にわたって妥当な程度に一定であると認識する傾向にある。サイコアコースティックアナリシスステップにおける可聴閾値分析処理は、先の説明でも参照することが出るが、オーディトリーイベントを構成する入力ブロックのセグメントだけを分析する点を除いて、上述の可聴閾値分析処理と本質的に同じである(例えば、図6のサブステップ206−2の説明を参照のこと)。そのようなオーディトリーイベントをタイムスケーリング及びピッチシフティングしたために現れたアーティファクトは、そのような領域ではほとんど可聴ではないので、オーディトリーイベントが対象となる。
高周波分析708−3(図21)
第3のサブステップ708−3(図21)(「高周波分析の実施」)は、各オーディオチャンネルの入力ブロックのオーディトリーイベントを分析して、各セグメントが、高周波オーディオ内容を十分含んでいるかどうかを決定する。静寂な状態における可聴閾値は約10−12kHzにまで急速に広がるので、また、聴覚は、低周波が支配的な波形の途切れに対してより、高周波が支配的な波形の途切れに対してのほうが感度が鈍くなるので、高周波セグメントが対象となる。オーディオ信号が、大部分で高周波エネルギーを含んでいるかどうかを決定するために有効な方法はたくさんあるが、図6のサブステップ206−3に関連して説明した上述の方法は、よい検出結果をもたらし、計算負荷を最小限にし、オーディトリーイベントを構成するセグメントの分析に適用することが可能となる。
オーディオレベル分析708−4(図21)
サイコアコースティックアナリシス処理の第4のステップ780−4(図21)、すなわち「オーディオブロック全般レベル分析の実施」サブステップは、各オーディオチャンネルの入力ブロックの各オーディトリーイベントセグメントを分析して、イベントの信号強度の大きさの計算をおこなう。かかる情報は、処理過程で悪用される上述のサイコアコースティックな特性を、そのイベントにはまったく含まないかどうかを分析するのに用いられる。オーケストラ音楽の単一チャンネルに用いた簡単な例を図23に示す。新しい音の調子として発生したスペクトルの変化は、各々2048サンプル目と2560サンプル目の新しいイベント2と3の引き金の役割を果たす。図23に示されたこのオーケストラ音楽は、可聴閾値以下の、又は高周波の内容のどんなトランジエントも含んでいない。しかし、最初のオーディトリーイベントは、ブロックにおける2番目と3番目のイベントより信号が小さい。データ拡張や圧縮処理のためには、音の大きなそれに続くイベントをよりこのような静かなイベントを選んだほうが、処理用の可聴なアーティファクトを最小限にすることができると考えられる。
結合されたオーディトリーイベントの決定と、
共通スプライスポイントの設定710(図17)
図17に示すとおり、オーディトリーシーンアナリシスと各ブロックのオーディトリーイベントを構成する各セグメントのサイコアコースティックアナリシスに続いて、次のステップ710(「結合されたオーディトリーイベントの決定と、共通スプライスポイントの設定」)で処理されるのは、すべてのチャンネルにまたがる同時的なブロックで結合されたオーディトリーイベントの境界を定めることであり(結合されたオーディトリーイベントについては図20と関連してさらに以下に記述する)、同時的なブロックの各セットにおける1以上の結合されたオーディトリーイベントセグメントに対して、すべてのチャンネルにまたがる同時的なブロックにおける共通スプライスポイントを決めることであり、及び、結合されたオーディトリーイベントセグメント内のオーディトリーイベントのサイコアコースティックな質の順位を定めることである。単一のチャンネルが処理されるイベントにおいて、チャンネル内のオーディトリーイベントは、本説明における多数チャンネルの結合されたオーディトリーイベントの処理と同じ方法で扱われる。
1以上の共通スプライスポイントの設定は、原則的として、特定された領域の共通する重複部分より、結合されたオーディトリーイベントが考慮される場合を除き、図5の説明に関連して上述した方法でなされる。従って、例えば、共通のスプライスポイントは典型的には、圧縮の場合は、結合されたオーディトリーイベント期間の早期に設定され、拡張の場合は、結合されたオーディトリーイベント期間の遅い時期に設定される。既定時間値として、例えば、結合されたオーディトリーイベント開始後5msecを採用してもよい。
各チャンネルにおいて結合されたオーディトリーイベントセグメントのサイコアコースティックな質は、データ圧縮又はデータ拡張処理が特定の結合されたオーディトリーイベント内で生じるかどうかを決定するために、考慮に入れられる。原則的に、サイコアコースティックな質の決定は、各結合されたイベントセグメントの共通のスプライスポイントが設定された後に実施されても良いし、或いは、各結合されたイベントセグメントの共通のスプライスポイントが設定される前に実施されても良い(この場合は、どんな共通のスプライスポイントも、複雑性を根拠として処理が省略される否定的な順位のサイコアコースティックな質を持つ結合されたイベントに対して、設定する必要はない)。
結合されたイベントのサイコアコースティックな質の順位は、結合されたイベントのタイムセグメント期間の様々なチャンネルにおけるオーディオのサイコアコースティックな特性を基準とすることができる(どのチャンネルも、どんなサイコアコースティックな基準をも満たさないような結合されたイベントが、最低のサイコアコースティックな質の順位を持つのに対して、トランジエントにより各チャンネルがマスクされた結合されたイベントは、最高のサイコアコースティックな質の順位を持つ)。例えば、上記の階層的なサイコアコースティックの基準を適用してもよい。結合されたイベントセグメントの複合体に様々なチャンネルを考慮に入れた下記に説明する最初の決定ステップ(ステップ712)の関連において、結合されたイベントの相対的なサイコアコースティックな質の順位を適用してもよい。複合セグメントは、データ圧縮又は拡張が可聴なアーティファクトの原因となりやすいセグメントである。例えば、複合セグメントは、少なくとも1つのチャンネルが(上述のような)サイコアコースティックな基準を満足しないか、又はトランジエント(上述のように、トランジエントを変化させることは望ましくない)を含むセグメントであろう。複合の極限では、例えば、すべてのチャンネルがサイコアコースティックな基準を満足しないか、又はトランジエントを含む。下記の第2の決定ステップ(ステップ718)はターゲットセグメントの長さ(これは結合されたイベントのセグメント長さの影響を受ける)を考慮に入れる。単一チャンネルの場合は、このイベントは、そのイベントの処理が省略されるかどうかを決めるためのサイコアコースティックな基準に従って順位がつけられる。
結合されたオーディトリーイベントは、2チャンネルオーディオ信号に対して得られたオーディトリーシーンアナリシスを示す図20を参照することでよく理解できる。図20は、2チャンネルのオーディオデータの同時的なブロックを示す。図20で上部の波形である第1チャンネルのオーディオのASA処理は、サブブロックのスペクトルプロファイルのサイズを乗算するサンプル中に、この例では1024番目と1536番目のサンプルにて、オーディトリーイベントの境界を定める。図20の下部の波形は第2のチャンネルであり、ASA処理は、サブブロックのスペクトルプロファイルのサイズを乗算するサンプル中に、この例では1024番目と2048番目と3072番目のサンプルにて、イベントの境界をもたらす。両方のチャンネルに対する結合されたオーディトリーイベントアナリシスは、1024番目、1536番目、2048番目及び3072番目のサンプルにて境界を持つ(各チャンネルのオーディトリーイベント境界は「OR条件」で結合される)、結合されたオーディトリーイベントセグメントを生み出す。イベントの境界はサブブロックの境界でのみ生じるから、実際にはオーディトリーイベントの境界の精度はサブブロックサイズ(この実用的な実施例ではNは512個のサンプルである)のスペクトルプロファイルサイズに依存することは高く評価される。しかしながら、512個のサンプルのサブブロックサイズで、満足する結果を得るために十分な精度を持ったオーディトリーイベントの境界を決定することができることがわかっている。
さらに図20を参照すると、図の上部のトランジエントを含むオーディオの単一のチャンネルさえ処理すれば、3つの独立したオーディトリーイベントは、データ縮小又はデータ拡張処理ができることになる。これらのイベントは(1)トランジエントの前のオーディオ静音部、(2)トランジエントイベント及び(3)オーディオトランジエントの残響/持続部分を含んでいる。同様に、図の下部に示されたスピーチ信号さえ処理すれば、4つの独立したオーディトリーイベントは、データ縮小又はデータ拡張処理ができることになる。これらのイベントは高周波のシューシュー音のイベントを優勢に含んでおり、シューシュー音のようなイベントは、母音、第1半母音および第2半母音へと進化又は「変形」する。
図20は、2つのチャンネルのデータと同時的、横断的に共有されるオーディトリーイベントデータを示す。このようなイベントのセグメント化は、データ圧縮又は拡張処理が発生し得る、5個の結合されたオーディトリーイベント領域を提供する(イベント境界は「OR条件」で結合される)。結合されたオーディトリーイベントセグメント内で処理することは、すべてのチャンネル内でのオーディトリーイベントと共に処理が生じることを確かなものとする。用いられるデータ圧縮又は拡張の方法、及び、オーディオデータの内容に応じて、(すべての結合されたイベントに対するよりむしろ)1つの結合されたイベント又はほんのいくつかの結合されたイベントにある2つのチャンネルのデータに対してのみ処理を行うことが最適であるかもしれないことには注意しなければならない。結合されたオーディトリーイベントは、すべてのオーディオチャンネルにおけるイベント境界のOR条件による結合結果ではあるけれど、各入力チャンネルブロックの同時的なデータに対して独立に実行されるデータ圧縮又は拡張処理のためのセグメントを決定するために用いられることには注意すべきである。このように、単一の結合されたイベントが処理のために選択されさえすれば、各オーディオチャンネルのデータは、その結合されたイベントの長さ及びタイムセグメント内で処理される。例えば図20において、もし全体の時間圧縮度が10%なら、結合されたイベント領域4が各チャンネルで処理されて、結合されたイベント領域4でのサンプルの数が、N個すべてのサンプルの長さが0.10*N個のサンプルにより変化することを満足するよう変化しさえすれば、最小量の可聴アーティファクトしか現れないだろう。しかし、処理を分散させて、すべての結合されたイベントを総計すれば長さで0.10*N個のサンプルになるような、各々の結合されたイベントを処理することが可能となるようにしてもよい。結合されたイベントの数とどの結合されたイベントが処理されるかの選択は、以下に説明するようにステップ718で決められる。
図24は、4チャンネルの入力信号の例を示す。チャンネル1と4は各々3つのオーディトリーイベントを含んでおり、チャンネル2と3は各々2つのオーディトリーイベントを含んでいる。図24の下部に示すように、4チャンネルすべてに横断的、同時的なデータについての結合されたオーディトリーイベントの境界は、512番目、1024番目、1536番目、2560番目及び3072番目のサンプルに位置する。これは、6個の結合されたオーディトリーイベントのすべてが、4チャンネルにまたがって処理されることを意味する。しかし、結合されたオーディトリーイベントのあるものは比較的低いサイコアコースティックな順位を持っているかもしれないし、或いは、非常に短いのでその中で処理するのは望ましくないかもしれない。図24の例では、最も処理することが望ましい結合されたオーディトリーイベントは、結合イベント領域4で、次に処理することが望ましいのが結合イベント領域6である。他の結合イベント領域は、最低サイズである。さらに、結合イベント領域2はチャンネル1でトランジエントを含んでいる。先に注記したように、トランジエントの期間中は処理を避けるのが最善である。結合イベント領域4は最も長く、各チャンネルのサイコアコースティックな特徴が申し分ないので、すなわち、チャンネル1にポストマスクをおこなうトランジエントがあり、チャンネル4は可聴閾値以下であり、チャンネル2と3は比較的低レベルなので、結合イベント領域4での処理が望ましい。
相関計算処理の最大長さとクロスフェード長さとが、結合されたオーディトリーイベントのタイムセグメント内で削除したり繰返したりすることができるオーディオの最大量を制限する。相関計算処理の最大長さは、データ圧縮又は拡張処理がイベントの始まりと終わりの境界の間におこなわれるような長さとすべきである。これに失敗すると、イベントの境界で「不鮮明」又は「ぼやけ」の原因となり、これは可聴である。
図25は、図24の例において、チャンネル中の結合オーディトリーイベントタイムセグメント領域4を処理すべきセグメントとして用いて、4チャンネルのデータ圧縮処理の詳細を示す。この例では、チャンネル1は結合イベント領域2にて1つのトランジエントを含んでいる。この例において、オーディオチャンネル1のサンプル650番目のトランジエントに続く最大の結合されたオーディトリーイベントに位置する1757番目のサンプルが、スプライスポイント位置として選択される。このスプライスポイント位置は、クロスフェード中にイベント境界で不鮮明さが発生するのを避けるために、結合されたイベントの前方の境界より5msec(クロスフェードの半分の長さ、又は44.1kHzにおいて、221個のサンプル)後ろに置くことを基準に選定された。このセグメントにスプライスポイントの位置を定めることで、結合されたイベント領域2のトランジエントにより提供されるポストマスクもうまく利用できる。
図25に示された例において、最大処理長さは、処理及びクロスフェード期間中に削除されるべき2560番目のサンプルにある結合された多数チャンネルのオーディトリーイベントの境界位置を考慮に入れている。ステップ710の部分で、最大処理長さは582サンプルに設定される。この値は以下のように、クロスフェードの半分の長さとして、5msec(44.1kHzにおいて、221個のサンプル)を仮定した。

///
///
最大処理長さ =
イベント境界 − クロスフェード長さ − 処理スプライスポイント位置
582 = 2560 − 221 − 1757

ステップ710の出力は、各結合されたオーディトリーイベントの境界、各結合されたオーディトリーイベントのチャンネルを横断する同時的なデータブロックの共通スプライスポイント、結合されたオーディトリーイベントのサイコアコースティックな質の順位付け、クロスフェードパラメータの情報、及び各結合されたオーディトリーイベントのチャンネルを横断的に処理する最大処理長さである。
先に説明した通り、低いサイコアコースティックな質の順位を持つ結合されたオーディトリーイベントは、オーディオチャンネルにまたがってどんなデータ圧縮又は拡張も起こらないことを示している。例えば、図26に示すように、この例は単一チャンネルと考えられ、イベント3と4にあるオーディオは、各々512サンプルの長さであり、低周波が支配的な内容を持っており、この内容はデータ圧縮又は拡張処理に適当ではない(支配的な周波数は、利用するのに十分な周期性を持たない。)このようなイベントは、低いサイコアコースティックな質の基準が割り当てられ、処理を省略してもよい。
複雑性に基づく処理の省略712(図17)
このように、ステップ712(「複雑性に基づく処理の省略?」)では、サイコアコースティックな質の順位が低い(高い複雑性を示す)ときは、省略フラグが設定される。以下に説明するようなステップ714での相関計算処理の後ではなく、その前に、このような複雑性に基づく決定をおこなうことにより、無意味な相関計算処理をおこなわずに済む。以下に説明するようなステップ718で、結合された特別なオーディトリーイベントセグメントの間に、いろいろなチャンネルにわたってさらに処理がなされるべきかの決定をおこなうことに注意しなければならない。ステップ718では、現在処理中のものの必要長さに関連して、結合されたオーディトリーイベントのターゲットセグメントの長さを考慮に入れる。ターゲットセグメントの長さは、これから説明する相関計算ステップ714により共通エンドポイントが定まるまで決まらない。
相関計算処理
ターゲットセグメントを決定するために、各共通スプライスポイントに対して、適切な共通エンドポイントが必要である。現行の結合されたオーディトリーイベントセグメントへの入力が処理されるべきであると決定されると、図17に示すように、時間領域データの相関計算処理(ステップ714−1と714−2)と、入力信号の位相情報の相関計算処理(ステップ714−3と714−4)とからなる2つのタイプの相関計算がおこなわれる(ステップ714)。入力データの位相情報と時間領域情報の結合を用いることによって、時間領域情報のみを用いるより、スピーチから複雑な音楽に至るまでの信号レンジで質の高いタイムスケーリング結果をもたらす。ステップ714における処理の詳細は、サブステップ714−1,2,3及び4と多数相関処理ステップ716を含め、先にステップ214(とそのサブステップ214−1,2,3及び4)及び216に関連して説明したものと、ステップ714と716では処理はサイコアコースティックに特定された領域よりむしろ、結合されたオーディトリーイベントセグメントによるものである点を除いて、本質的に同じである。
代案によるスプライスポイントとエンドポイントの選定処理
前述の通り、本発明は、スプライスポイントの位置とそれに付随するエンドポイントの位置を決定する、別の方法も考えている。前述の処理では、スプライスポイントをどこかに任意に選定し、その後平均周期(本質的に自由度1)に基づいてエンドポイントを選定する。後述する他の方法として、代わりに、スプライスポイントによる可聴アーティファクトを最小限にするような最適なクロスフェードを目指して、理想的なスプライスポイント/エンドポイントの組合せを選択する(自由度2)。
図27は、単一チャンネルのオーディオに対して、本発明の他の特徴による、スプライスポイント位置とエンドポイント位置の選定における最初のステップを示す。図27では、信号は3つのオーディトリーイベントにより構成されている。サイコアコースティックアナリシスにより、イベント2は、イベント3にまで及ぶポストマスキングが優勢な時間的マスキングを与えるトランジエントを含んでいることがわかる。イベント3も最大のイベントであり、最長の処理領域を提供する。最適なスプライスポイント位置を決定するために、Tc個(クロスフェードの時間)のサンプル長さの領域(クロスフェードの長さと同じ)のデータが処理領域のデータに関連付けられる。関係あるスプライスポイントの位置はTcスプライスポイント領域の中央に位置する。
スプライスポイント領域と処理領域との相関計算の結果が、(第1の代案の方法と同様の方法で)最適エンドポイントの決定に使う相関基準となり、特定のスプライスポイントにおける最適エンドポイントは算出された相関関数における最大相関値を見つけることにより決定される。この第2の代案による方法に基づき、最適なスプライスポイント/エンドポイントの組合せは、試験的な一連のスプライスポイントと試験的なスプライスポイントに隣り合う相関計算領域との相関により決定され得る。
図30A−Cに示すように、最適なエンドポイントは最小エンドポイントの後にあるのが望ましい。最小エンドポイントは最低個数のサンプルが常に処理される(追加又は削除される)ように設定される。最適なエンドポイントは最大エンドポイントの点又はその前にあることが望ましい。図28に示すように、最大エンドポイントは、処理されるイベントセグメントの終端に、クロスフェード長の半分の長さより近づくことはない。上述のように、現実の実施例では、どんなオーディトリーイベントも入力ブロックの終端を超えることはないだろう。これは図28におけるイベント3の場合であり、サンプル数4096個の入力ブロックの終端により制限されている。
相関関数の値は、最大と最小エンドポイント間での相関関数値の最大値において、スプライスポイントが特定のスプライスポイントに対する最適なエンドポイントとどれだけ似ているかを決定する。(単に、特定のスプライスポイントに対するエンドポイントを最適化するより)スプライスポイント/エンドポイントの組合せを最適化するために、先の領域の右側に各々N個のサンプルを配置させる他のTc個のサンプルを持つスプライスポイント領域を選択すること、及び、図28に示すように相関関数を再計算することにより、一連の相関が計算される。
ここで最低サンプル個数Nは1である。しかし、サンプル個数Nとして1を選ぶことは、計算すべき相関の数が非常に大きくなってしまい、実時間処理の大きな妨げとなる。このNを、クロスフェードの長さである、Tc個のサンプルとするように、十分大きな長さのサンプル個数に設定することで、計算の簡略化ができる。このことはさらに、よい結果と処理要求の減少をもたらす。図29は、スプライスポイント領域がTc個のサンプル分だけ連続的に前に進んだとき、必要となる多数相関計算の概念的な例を示したものである。3つの処理ステップは、オーディオデータブロックのデータに重ね合わせられる。
図29に示す処理は、各々図30A−Cに示すような最大値をもつ3つの相関関数をもたらす。
図30Bにしめすように、最大の相関値は、2番目のスプライスポイントの反復計算の結果からでてくる。このことは、2番目のスプライスポイントと相関計算により計算された最大値は、スプライスポイントからエンドポイントまでの距離として使われることを意味する。相関計算を行う場合に、概念的には、Tc個のサンプルは、Tc個のサンプルにおける対応するサンプル値にインデックス番号毎に正しく切り分けられ、処理領域において、互いに乗算される。
Tc個のサンプルは試験的なスプライスポイントの周りの窓、この例では方形窓、に入れられる。試験的なスプライスポイントをより強調し、試験的なスプライスポイントから現れる領域に対してほとんど影響を与えない形の窓が良い結果をもたらすだろう。初期状態(スライドなし、重複なし)では、相関関係はゼロと定義される。相関値は、スライドが重複なしのところまで行き再びゼロになるまで、増減する。現実の実施では、FFTが相関計算に用いられる。図30A−Cに示された相関関数は±1に制限される。これらの値は、正規化のための関数ではない。相関関数の正規化は、最適なスプライスポイントとエンドポイントを選択するための相関関数から相対的な重みを捨て去るものである。最適なスプライスポイントが決定されると、それは、最小と最大処理点の位置の間で正規化されていない最大相関値と比較される。最大相関値と最大値は、最適なスプライスポイントとエンドポイントの組み合わせとなる。
この代案としてのスプライスポイントとエンドポイント位置決定方法は、エンドポイントがスプライスポイントの後に来るようなデータ圧縮の場合を記載した。しかし、データ拡張の場合も同様に適用できる。データ拡張の場合は、2つの代案がある。第1の代案によれば、最適化されたスプライスポイント/エンドポイントの組み合わせは、上述のように決定される。そして、スプライスポイントとエンドポイントの位置は、スプライスポイントをエンドポイントとし、逆もまた同じとするように逆にされる。第2の代案によれば、エンドポイントがスプライスポイントより早く来るようなエンドポイント/スプライスポイントの組み合わせの最適化のために、試験的なスプライスポイントの周りの領域は「前向き」よりむしろ「後ろ向き」に相関計算される。
多数チャンネル処理は上述と同様に実行される。オーディトリーイベントが結合された後、各チャンネルの相関値は、各スプライスポイントの評価ステップのため結合され、結合された相関値は、最大値を決めるために用いられ、このようにして最適なスプライスポイントとエンドポイントの組み合わせが決められる。付加的に処理を削減する方法は、Mの値で時間領域のデータを減少させることによりもたらされる。これは10という値により計算負荷を減らすが(M個のサンプル以内の)雑なエンドポイントをもたらすだけである。詳細な調整は、荒い10分の1の処理を実行した後に、例えば1サンプルの場合の計算のために最適なエンドポイントを見つけるために、10分の1化されていないすべてのオーディオを用いて計算することにより行うこととしても良い。
更なる代案は、窓化されていない大きな領域の変わりに試験的なスプラスポイント位置の周りの窓化された領域とそれに関係する試験的なスプラスポイント位置の周りの窓化された領域との相関計算を行うことである。試験的なスプラスポイント位置と窓化されていない相関領域との間の相関計算を行うことは計算として過密ではないが(このような相関計算は、のころの相関計算を行うための周波数領域に変換する前に、時間領域で行われる)、時間領域で窓化された領域の相関計算を行うことは計算として骨が折れる。
この代案によるスプライスポイント/エンドポイント選択処理は、オーディオ信号がオーディトリーイベントに分割される実施例の文脈の中ですでに説明されているが、この代案の処理原理は、図5の処理を含む他の環境においても同様に適用することができる。図5の環境では、スプライスポイントとエンドポイントは、オーディトリーイベント又は結合されたオーディトリーイベント内というよりむしろ、サイコアコースティックに特定された領域内に、又は特定された領域と重複して存在するであろう。
イベント処理の決定
図17の説明に戻って、次のステップは、イベントブロック処理決定ステップ718(「結合イベントの処理?」)である。タイムスケーリング処理は、時間領域又は時間領域と位相情報を利用し、この情報をオーディオ信号データの処理に使うものだから、タイムスケーリング係数は時間に対して直線的ではなく、要求された出力タイムスケーリング係数の周辺で変動する。イベント処理の決定において、他の機能の間に、要求された入力タイムスケーリング係数に対してどれだけタイムスケーリングされたかを比較する。もし、処理により、結合されたオーディトリーイベントセグメントの時間が要求されたタイムスケーリング係数を超えるにいたる場合は、この結合されたオーディトリーイベントセグメントは処理が省略される(すなわち処理されない)。しかし、もしタイムスケーリングが要求される時間を下回る時間で実行された場合は、結合されたオーディトリーイベントセグメントが処理される。
結合されたオーディトリーイベントセグメントが(ステップ712に従って)処理されるときは、要求の結合されたオーディトリーイベントセグメントを、現在の結合されたオーディトリーイベントセグメントを処理することで遂行される出力タイムスケーリング係数と比較する。この決定ステップは入力データブロック内で現在の結合されたオーディトリーイベントセグメントの処理を行うかどうかの決定を行う。ここで、実際の処理は、結合されたオーディトリーイベントセグメント内に含まれている、ターゲットセグメントに対してであることに注意しなければならない。入力データがイベントレベルにどのように作用するかの例を図31に示す。
図31は、全体の入力ブロック長さが4096個のサンプルである例を示す。このブロックにあるオーディオは3つのオーディトリーイベント又は結合されたオーディトリーイベントセグメント、ここでは多数チャンネルの内の1つのグラフのみを示す)を含み、おのおの1536個、1024個および1536個のサンプル数の長さとなっている。図17に示されているように、各オーディトリーイベント又は結合されたオーディトリーイベントセグメントは個別に処理され、ブロックの先頭にある1536個のサンプルのオーディトリーイベントが最初に処理される。上記例では、スプライスポイントとの相関分析はサンプル500個目のスプライスポイントからはじめ、363個のサンプルのオーディオ(ターゲットセグメント)を、可聴アーティファクトを最小にして、削除又は繰返すことができる。これは、現在の入力ブロックの4096個のサンプルに対して、時間圧縮係数、

336サンプル/4096サンプル =8.86%

を提供する。もし、この次のオーディトリーイベントセグメント又は結合オーディトリーイベントセグメントの処理に伴う363個のサンプルの結合における処理が、時間圧縮処理に要求される量以上である場合は、最初のオーディトリーイベントセグメント又は結合オーディトリーイベントセグメントの処理で十分であるとし、ブロックの残りのオーディトリーイベントセグメント又は結合オーディトリーイベントセグメントは処理が省略される。しかし、もし最初のオーディトリーイベントで処理された363個のサンプルが要求の時間圧縮値に適合しない場合は、2番目も3番目も処理対象と考えられる。
スプライス及びクロスフェード処理720(図5)
スプライスポイント及びスプライスポイントの決定に続いて、ステップ712又はステップ718で除去されなかった各結合オーディトリーイベントは、「スプライス及びクロスフェード処理」ステップ720(図17)により処理される。このステップは各イベント又は、結合イベント、データセグメント、スプライスポイント位置、処理エンドポイント及びクロスフェードパラメータを受け取る。ステップ720は、オーディトリーイベント又は結合オーディトリーイベントにより動作し、かつ、クロスフェードの長さが長くなるかもしれない点を除いて、上述した図5の処理におけるステップ218と原則として同様に動作する。
クロスフェードパラメータ情報は、より短いクロスフェードの使用を可能にするトランジエントの存在によってのみならず、共通スプライスポイントが位置する結合されたオーディトリーイベント全体の長さによっても影響を受ける。現実の実施では、データ圧縮又は拡張プロセスが行われるオーディトリーイベントセグメント又は結合オーディトリーイベントセグメントのサイズに比例して、クロスフェードの長さが縮尺される。上述の通り、現実の実施例では、最小オーディトリーイベントは512点で、サイズは512個のサンプルずつ増やして、最大4096個のサンプル数の入力ブロックサイズまで可能である。クロスフェードの長さは最小(512点)オーディトリーイベントの10msecにすることができる。クロスフェードの長さはオーディオイベントのサイズに比例して最大値又は30−35msecまで増加することができる。このような増減は、先に議論したとおり、より長いクロスフェードはアーティファクトをマスクする傾向があるだけでなく、オーディオが急に変化したときに問題を引き起こす原因にもなる。オーディトリーイベントはオーディオを含有する要素を束ねているので、クロスフェードすることで、オーディオが主にオーディトリーイベント内に固定されていること、及び長いクロスフェードを可聴アーティファクトファクトを発生させることなく用いることができることの利点を使うことができる。上述のブロックサイズとクロスフェード回数は,有効な結果をもたらすことが分かったが、これは本発明の必須条件ではない。
ピッチスケーリング処理722(図5)
結合されたオーディトリーイベントのスプライス/クロスフェード処理に続いて、決定ステップ722(「ピッチスケール?」)により、どのピッチシフトを実行するかを決定する。先に論じたとおり、アンドーフローやオーバーフローを防止するため、タイムスケーリングは実時間ではできない。ピッチスケーリングは再サンプリングステップ724(「全データ再サンプリング」)があるので実時間で実行することができる。再サンプリングステップでは、タイムスケーリングされた入力信号を再サンプリングして、その結果入力信号と同じ時間展開ではあるがスペクトル情報が変化するピッチスケールされた信号となる。実時間処理のため、再サンプリングは、計算負荷を軽減するため専用ハードウエアのサンプルレートコンバータを用いて実行しても良い。
ピッチスケールの決定を行い、必要に応じて再サンプリングを行った後、すべての処理された入力データブロックは、非実時間処理のため又は実時間処理のデータバッファに出力するため(「処理されたデータブロックの出力」)(ステップ726)、どれもファイルに出力される。次いで、処理フローに従い、付加データを調べ(「入力データ」)そして処理を続行する。
本発明の他の変更又は修正による実施や種々の特徴は当業者にとって明らかであり、本発明はこれらの具体的に記載された実施例に限定されるものでないことは了解されるべきである。従って、あらゆる変更や修正又は本質的な思想とここに開示され、請求された原則的な基本原理と均等なものは本発明の範囲に含まれる。
本発明とその種々の特徴は、ディジタル信号処理装置、プログラムされた汎用ディジタルコンピュータ及び/又は専用ディジタルコンピュータのソフトウエアの機能により実行することができる。アナログ信号とディジタル信号の流れは適当なハードウエアにより、及び/又はファームウエアとして実行されよう。
図1は、オーディオが存在しないとき(実線)と500Hzの正弦波の存在下(破線)での人間の可聴閾値の理想化された曲線である。水平軸のスケールはヘルツ(Hz)で表した周波数であり、垂直軸のスケールは各々20μPaに対するデシベル(dB)である。 図2Aは、ターゲットセグメントを削除することでデータの圧縮をおこなう概念を描いた概念的な概要説明図である。水平軸は時間を表す。 図2Bは、ターゲットセグメントを削除することでデータの圧縮をおこなう概念を描いた概念的な概要説明図である。水平軸は時間を表す。 図2Cは、ターゲットセグメントを繰返すことでデータの拡張をおこなう概念を描いた概念的な概要説明図である。水平軸は時間を表す。 図2Dは、ターゲットセグメントを繰返すことでデータの拡張をおこなう概念を描いた概念的な概要説明図である。水平軸は時間を表す。 図3Aは、データ圧縮において最小スプライスポイントの位置と最大スプライスポイントの位置を示したサンプルによるオーディオデータのブロックを描いた概念的な概要説明図である。水平軸はサンプルであり時間を表す。垂直軸は正規化された振幅である。 図3Bは、データ拡張において最小スプライスポイントの位置と最大スプライスポイントの位置を示したサンプルによるオーディオデータのブロックを描いた概念的な概要説明図である。水平軸はサンプルであり時間を表す。垂直軸は正規化された振幅である。 図4は、データ圧縮において、スプライスポイント、最小エンドポイントの位置、最大エンドポイントの位置、相関処理領域、及び最大処理ポイントの位置を示したサンプルによるオーディオデータのブロックを描いた概念的な概要説明図である。水平軸はサンプルであり時間を表す。垂直軸は正規化された振幅である。 図5は、サイコアコースティックな分析を実行する本発明に係るタイム及び/又はピッチスケーリングを説明するフローチャートである。 図6は、図5のサイコアコースティックな分析ステップ206の詳細を示すフローチャートである。 図7は、トランジエント分析ステップのトランジエント検出サブステップの詳細を示すフローチャートである。 図8は、トランジエント分析のバッファにおけるデータサンプルのブロックの概念的な概要説明図である。水平軸はブロック内のサンプルである。 図9は、ブロックの中央部に、開始部及び終了部より6dB低い450Hzの正弦波があるオーディオブロック分析のサンプルを示す概念的な概要説明図である。水平軸は時間を表すサンプルであり、垂直軸は正規化された振幅である。 図10は、ハニング窓により整形した非線型クロスフェードを用い、データセグメントのスプライスをおこなった例を示して、どのようにクロスフェードが実行されるかを概念的に示す概要説明図である。水平軸の尺度は時間であり、垂直軸の尺度は振幅である。 図11は、図5の多数チャンネルのスプライスポイントを選択するステップ210の詳細を示すフローチャートである。 図12は、各々違う基準を満足する各チャンネルにおいて特定された領域を表すと共に、共通の多数チャンネルに対するスプライスポイントの位置決めを可能とする特定された領域における重複部分を表す、オーディオデータサンプルのブロックを示す4つのオーディオチャンネルの理想化された一連の波形である。水平軸はサンプルであり時間を表す。垂直軸は正規化された振幅である。 図13は、典型的なスピーチ信号における非常に周期的な部分の時間領域における情報を示す。双方における廃棄されたデータセグメントの類似性を最大にするスプライスポイント及びエンドポイントをうまく選択した例を示している。水平軸は時間を表すサンプルであり、垂直軸は正規化された振幅である。 図14は、時間領域での信号、X(n)に重ね合わせたスピーチ信号の位相の瞬時値をラジアン単位で示した理想化された波形の描写である。水平軸はサンプルであり、垂直軸は正規化された振幅及び位相(ラジアン単位)である。 図15は、図5の相関処理ステップ214の詳細を示すフローチャートである。図15は各5つのチャンネルにおける位相についての相関処理の結果と各5つのチャンネルにおける時間領域における相関処理の結果とを示す理想化された波形を含んでいる。波形はオーディオデータサンプルのブロックを表す。水平軸は時間を表すサンプルであり、垂直軸は正規化された振幅である。 図16は、グロックダイアグラムとフローチャートの側面を持ち、付加的な重み付けをおこなった相関処理の例を示す概念的な概要説明図である。水平軸は時間を表すサンプルであり、垂直軸は正規化された振幅である。 図17は、本発明に係るタイムスケーリングとピッチスケーリングの処理を示すフローチャートであり、ここではサイコアコースティックアナリシスとオーディトリーシーンアナリシスの両方がおこなわれている。 図18は、図17におけるオーディトリーシーンアナリシスのステップ706の詳細を示したフローチャートである。 図19は、周波数帯のプロファイルを描くための一般的な計算方法を示す概念的な概要説明図である。 図20は、各チャンネルの聴覚イベントと2つのチャンネルにまたがって結合された聴覚イベントを示す、2つのオーディオチャンネルの理想化された連続波形である。 図21は、図17におけるサイコアコースティックな分析ステップ708の詳細を示したフローチャートである。 図22は、トランジエント分析のバッファにおけるデータサンプルのブロックの概念的な概要説明図である。水平軸はブロック内のサンプルである。 図23は、聴覚イベントとサイコアコースティックな基準を描いたオーケストラ音楽における1つのチャンネルの理想化された波形である。 図24は、聴覚イベントとサイコアコースティックな基準と結合された聴覚イベントの順位を描いた4つのオーディオチャンネルの理想化された連続波形である。 図25は、図24における結合された聴覚イベントを拡大して示したものである。 図26は、省略できる程度の質の順位の低いサイコアコースティックな聴覚イベントの例を描いた単一チャンネルの理想化された波形である。 図27は、単一チャンネルのオーディオ及び本発明のもう1つの特徴によるスプライスポイントとエンドポイントについて、選択の最初のステップを示した、概念的な概要説明図である。 図28は、スプライスポイントの領域TcがNサンプル数分だけシフトした図27と同様の図である。 図29は、スプライスポイントの領域が連続的にTcサンプル数分だけ前進した時の多数相関計算の例を示した概念的な概要説明図である。3つの処理ステップはブロックデータをプロットしたオーディオデータの上に重ねて描かれている。図29で示した処理は、各々が図30A−Cに示した最大値を採る3つの相関関数となる。 図30Aは、1番目のスプライスポイント領域Tcの位置が図29に示した位置である場合の理想化された相関関数である。 図30Bは、2番目のスプライスポイント領域Tcの位置が図29に示した位置である場合の理想化された相関関数である。 図30Cは、3番目のスプライスポイント領域Tcの位置が図29に示した位置である場合の理想化された相関関数である。 図31は、1番目の結合された聴覚イベント領域で、363のサンプル数からなるターゲットセグメントが選択されたときの例を示す、3つの結合された聴覚イベント領域の理想化された波形である。

Claims (65)

  1. オーディオ信号のタイムスケーリング及び/又はピッチシフティングを非可聴に又は最小限の可聴性で処理するようなオーディオ信号領域を特定するため多数のサイコアコースティックな基準を用いて上記オーディオ信号を分析し、
    上記領域内でオーディオ信号のタイムスケーリング及び/又はピッチシフティング処理を行うことを含む、オーディオ信号のタイムスケーリング及び/又はピッチシフティングの方法であって、
    前記タイムスケーリング及び/又はピッチシフティングの処理は、
    前記オーディオ信号領域にスプライスポイントを選定し、当該スプライスポイントを導くオーディオ信号のリーディングセグメントを決定し、
    前記スプライスポイントから間隔を置いてエンドポイントを選定し、当該エンドポイントの後に続くオーディオ信号のトレイリングセグメント、及び当該スプライスポイントとエンドポイントの間にターゲットセグメントを決定し、
    前記リーディングセグメントとトレイリングセグメントとを前記スプライスポイントで結合し、当該エンドポイントが前記スプライスポイントより大きなサンプル数を有する場合は当該ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少し、又は、当該エンドポイントが前記スプライスポイントより小さなサンプル数を有する場合は当該ターゲットセグメントを繰返すことでオーディオ信号サンプルの数を増大し、
    結合されたリーディングセグメントとトレイリングセグメントを要求されたタイムスケーリング及び/又はピッチシフティングを生じるようなレートで読み出すことを含む、方法。
  2. 結合されたリーディングセグメントとトレイリングセグメントが、
    オリジナルの期間と同じ期間が当該オーディオ信号のピッチシフティングをもたらすような、
    ターゲットセグメントを削除する場合において、サンプル数の減少による相対的な変化と同じ比率で減少した期間がオーディオ信号の時間圧縮をもたらすような、
    ターゲットセグメントを繰返す場合において、サンプル数の増加による相対的な変化と同じ比率で増加した期間がオーディオ信号の時間拡張をもたらすような、
    サンプル数の減少による相対的な変化とは異なる比率で減少した期間がオーディオ信号の時間圧縮とピッチシフティングをもたらすような、あるいは、
    サンプル数の増加による相対的な変化とは異なる比率で増加した期間がオーディオ信号の時間拡張とピッチシフティングをもたらすようなレートで読み出だされる、請求項1に記載の方法。
  3. 当該エンドポイントもまた前記領域内で選定されるような請求項1に記載の方法。
  4. 多数のサイコアコースティックな基準を用いた前記オーディオ信号の分析には、前記オーディオ信号を分析し、当該オーディオが一群のサイコアコースティックな基準の少なくとも1つを満足するようなオーディオ信号の領域を決定することを含む請求項1に記載の方法。
  5. 前記サイコアコースティックな基準には、
    特定された前記オーディオ信号領域はトランジエントの結果により実質的にプレマスク又はポストマスクされていること、
    特定された前記オーディオ信号領域は実質的に非可聴であること、
    特定された前記オーディオ信号領域は全般的に高周波であること、及び
    特定された前記オーディオ信号領域は、当該領域に先行する及び/又は続くセグメントの1以上の部分がより音が大きいオーディオ信号セグメントのより静かな部分であること、
    の少なくとも1つの基準を含む請求項4に記載の方法。
  6. 前記リーディングセグメントとトレイリングセグメントとをスプライスポイントで結合する前記ステップは、当該リーディングセグメントと当該トレイリングセグメントをクロスフェードすることを含む請求項1に記載の方法。
  7. ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合は、前記エンドポイントは、スプライスポイントに続くオーディオのセグメントを自己相関計算することで選択される、請求項1に記載の方法。
  8. ターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合は、前記エンドポイントは、スプライスポイントに先行するオーディオのセグメント及び後に続くオーディオのセグメントを自己相関計算することで選択される、請求項1に記載の方法。
  9. ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合又はターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合は、スプライスポイントの位置及びエンドポイントの位置は、
    連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域に対して、連続した試験的なスプライスポイントの位置の周辺のオーディオサンプルの窓について相関計算し、そして、
    最強の相関となる試験的なスプライスポイントの位置を決定し、この試験的なスプライスポイントの位置をスプライスポイントに指定し、最強の相関となる位置に実質的なエンドポイント位置を設定する、請求項1に記載の方法。
  10. 前記窓は方形窓である請求項9に記載の方法。
  11. 前記窓は実質的にクロスフェードの幅を持つ請求項10に記載の方法。
  12. 前記連続した試験的なスプライスポイントの位置は、2以上のオーディオサンプルにより間隔が保たれている請求項9に記載の方法。
  13. 前記連続した試験的なスプライスポイントの位置は、実質的に前記窓の幅により間隔が保たれている請求項12に記載の方法。
  14. 前記窓は実質的にクロスフェードの幅を持っている請求項13に記載の方法。
  15. ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合に、連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域は、各試験的なスプライスポイント位置に続き、スプライスポイントがエンドポイントに先行する請求項9に記載の方法。
  16. ターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合に、連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域は、各試験的なスプライスポイント位置に続き、スプライスポイントとエンドポイントの地位が入れ替えられ、エンドポイントがスプライスポイントに先行する請求項9に記載の方法。
  17. ターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合に、連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域は、各試験的なスプライスポイント位置に先行し、エンドポイントがスプライスポイントに先行する請求項9に記載の方法。
  18. ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合又はターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合において、スプライスポイントの位置とエンドポイントの位置は、
    連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域に対して、連続した試験的なスプライスポイントの位置の周辺のオーディオサンプルの窓について相関計算し、前記オーディオサンプルのすべてを係数Mで縮小し、
    最強の相関となる試験的なスプライスポイントの位置を決定し、この試験的なスプライスポイントの位置を縮小されたスプライスポイントに指定し、
    第2の連続した各試験的なスプライスポイントの位置に隣り合う縮小されていないオーディオサンプルの領域に対して、前記縮小されたスプライスポイントのM個のサンプル内で、第2の連続した試験的なスプライスポイントの位置の周辺の縮小されていないオーディオサンプルの窓について相関計算し、
    最強の相関となる試験的なスプライスポイントの位置を前記第2の連続部に決定し、この試験的なスプライスポイントの位置をスプライスポイントに指定し、最高の相関となる位置に実質的にエンドポイントの位置を設定する
    ことにより、選定される請求項1に記載の方法。
  19. オーディオ信号のタイムスケーリング及び/又はピッチシフティングを非可聴に又は最小限の可聴性で処理するようなオーディオ信号領域を特定するため少なくとも1つのサイコアコースティックな基準を用いて前記オーディオ信号の各々を分析し、
    オーディオ信号の上記チャンネルの少なくとも1つの特定された領域内にあるタイムセグメントの期間に前記多数チャンネルのすべてのオーディオ信号のタイムスケーリング及び/又はピッチシフティング処理を行うことを含む、多数チャンネルのオーディオ信号のタイムスケーリング及び/又はピッチシフティングの方法であって、
    前記タイムスケーリング及び/又はピッチシフティング処理は、
    オーディオ信号のチャンネル間で共通のスプライスポイントを選択し、そこで、多数のオーディオ信号のチャンネルの各々にある前記共通のスプライスポイントからの結果として生まれるスプライスポイントは、お互いに一列に並べられ、前記共通のスプライスポイントが前記オーディオ信号のチャンネルの少なくとも1つの特定された領域内にあり、
    スプライスポイントで始まる各チャンネルのオーディオ信号の一部分を削除するか、又は、スプライスポイントで終わる各チャンネルのオーディオ信号の一部分を繰返すかし、そして、
    この結果生じた多数チャンネルのオーディオ信号を、要求されたタイムスケーリング及び/又はピッチシフティングが多数チャンネルのオーディオに対して生じるようなレートで読み出すことを含む、方法。
  20. さらに、特定された領域の共通する重複部分があるタイムセグメントを特定し、前記共通のスプライスポイントを、前記特定された領域の共通する重複部分内にオーディオ信号の間で選択する、請求項19に記載の方法。
  21. 前記共通のスプライスポイントの選択は、少なくとも1つのサイコアコースティックな基準を用いて、クロスチャンネル効果を考慮に入れて前記スプライスポイントの位置を選択する、請求項19に記載の方法。
  22. オーディオ信号のタイムスケーリング及び/又はピッチシフティングを非可聴に又は最小限の可聴性で処理するようなオーディオ信号領域を特定するため少なくとも1つのサイコアコースティックな基準を用いて前記オーディオ信号の各々を分析し、
    オーディオ信号の上記チャンネルの少なくとも1つの特定された領域内にあるタイムセグメントの期間に前記多数チャンネルのすべてのオーディオ信号のタイムスケーリング及び/又はピッチシフティング処理を行うことを含む、多数チャンネルのオーディオ信号のタイムスケーリング及び/又はピッチシフティングの方法であって、
    前記タイムスケーリング及び/又はピッチシフティング処理は、
    オーディオ信号の各チャンネル間の特定された領域に共通のスプライスポイントを選択し、そこで、多数のオーディオ信号のチャンネルの各々にある共通の前記スプライスポイントからの結果として生まれるスプライスポイントは、お互いに一列に並べられ、各スプライスポイントが当該スプライスポイントを導くオーディオ信号のリーディングセグメントを決定し、
    スプライスポイントから間隔をあけて配置された前記特定された領域に共通のエンドポイントを選択し、多数のオーディオ信号のチャンネルのエンドポイントは、お互いに一列に並べられ、エンドポイントの後ろに続くオーディオ信号のトレイリングセグメントと、当該スプライスポイントとエンドポイントの間にターゲットセグメントを決定し、
    前記リーディングセグメントとトレイリングセグメントとを前記スプライスポイントで結合し、当該エンドポイントが前記スプライスポイントより大きなサンプル数を有する場合は当該ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少し、又は、当該エンドポイントが前記スプライスポイントより小さなサンプル数を有する場合は当該ターゲットセグメントを繰返すことでオーディオ信号サンプルの数を増大し、
    オーディオ信号の各チャンネルで結合されたリーディングセグメントとトレイリングセグメントを、多数チャンネルのオーディオ信号に要求されたタイムスケーリング及び/又はピッチシフティングを生じるようなレートで読み出すことを含む、方法。
  23. 結合されたリーディングセグメントとトレイリングセグメントは、
    オリジナルの期間と同じ期間が当該オーディオ信号のピッチシフティングをもたらすような、
    ターゲットセグメントを削除する場合において、サンプル数の減少による相対的な変化と同じ比率で減少した期間がオーディオ信号の時間圧縮をもたらすような、
    ターゲットセグメントを繰返す場合において、サンプル数の増加による相対的な変化と同じ比率で増加した期間がオーディオ信号の時間拡張をもたらすような、
    サンプル数の減少による相対的な変化とは異なる比率で減少した期間がオーディオ信号の時間圧縮とピッチシフティングをもたらすような、あるいは、
    サンプル数の増加による相対的な変化とは異なる比率で増加した期間がオーディオ信号の時間拡張とピッチシフティングをもたらすようなレートで読み出だされる、請求項19又は請求項22に記載の方法。
  24. さらに、1以上の特定された領域に暫定的なスプライスポイントを配置し、前記共通のスプライスポイントの選択により、チャンネルの1つにある暫定的なスプライスポイントの位置を共通のスプライスポイント位置であると選定し、共通のスプライスポイント位置として選定された暫定的なスプライスポイントの位置は他の1以上の暫定的なスプライスポイントの位置と同時には起こることのないことを含む、請求項22に記載の方法。
  25. さらに、前記共通のスプライスポイントの選択は、特定された領域における共通の重複部分内に共通スプライスポイントを選択する、特定された領域における前記共通の重複部分を特定することを含む請求項22に記載の方法。
  26. 前記共通のスプライスポイントの選択は、少なくとも1つのサイコアコースティックな基準を用いて、特定された領域における共通の重複部分内に前記共通スプライスポイントを選択する、請求項25に記載の方法。
  27. 前記共通のスプライスポイントの選択は、少なくとも1つのサイコアコースティックな基準を用い、またクロスチャンネル効果も考慮に入れて、特定された領域における共通の重複部分に共通スプライスポイントを選択する、請求項25に記載の方法。
  28. 前記共通のスプライスポイントの選択は、少なくとも1つのサイコアコースティックな基準を用いて、前記共通スプライスポイントを選択する、請求項22に記載の方法。
  29. 前記共通のスプライスポイントの選択は、少なくとも1つのサイコアコースティックな基準を用い、またクロスチャンネル効果も考慮に入れて、共通スプライスポイントを選択する、請求項28に記載の方法。
  30. エンドポイントは、各オーディオ信号内の前記領域内にも選択される請求項22に記載の方法。
  31. 前記、オーディオ信号の各チャンネル内に、非可聴に又は最小限の可聴性で、オーディオ信号のある部分の削除又はオーディオ信号のある部分の繰返しをおこなうような領域を特定するため、サイコアコースティックな基準を用いて前記オーディオ信号の各々のチャンネルを分析することには、オーディオ信号の各チャンネル内に、当該オーディオが少なくとも一群のサイコアコースティックな基準の少なくとも1つを満足するような領域を特定するために、前記オーディオ信号のチャンネルを分析することが含まれる、請求項22に記載に記載の方法。
  32. 前記サイコアコースティックな基準には、
    特定された前記オーディオ信号領域はトランジエントの結果により実質的にプレマスク又はポストマスクされていること、
    特定された前記オーディオ信号領域は実質的に非可聴であること、
    特定された前記オーディオ信号領域は全般的に高周波であること、及び
    特定された前記オーディオ信号領域は、当該領域に先行する及び/又は続くセグメントの1以上の部分がより音が大きいオーディオ信号セグメントのより静かな部分であること、
    の少なくとも1つの基準を含む請求項27又は請求項31に記載の方法。
  33. 前記オーディオ信号をオーディトリーイベントに分割し、
    オーディトリーイベント内でタイムスケーリング及び/又はピッチシフティング処理を行うことを含む、オーディオ信号のタイムスケーリング及び/又はピッチシフティング方法であって、
    前記タイムスケーリング及び/又はピッチシフティングの処理は、
    前記オーディオ信号領域にスプライスポイントを選定し、当該スプライスポイントを導くオーディオ信号のリーディングセグメントを決定し、
    前記スプライスポイントから間隔を置いてエンドポイントを選定し、当該エンドポイントの後に続くオーディオ信号のトレイリングセグメント、及び当該スプライスポイントとエンドポイントの間にターゲットセグメントを決定し、
    前記リーディングセグメントとトレイリングセグメントとを前記スプライスポイントで結合し、当該エンドポイントが前記スプライスポイントより大きなサンプル数を有する場合は当該ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少し、又は、当該エンドポイントが前記スプライスポイントより小さなサンプル数を有する場合は当該ターゲットセグメントを繰返すことでオーディオ信号サンプルの数を増大し、
    結合されたリーディングセグメントとトレイリングセグメントを要求されたタイムスケーリング及び/又はピッチシフティングを生じるようなレートで読み出すことを含む、方法。
  34. 結合されたリーディングセグメントとトレイリングセグメントが、
    オリジナルの期間と同じ期間が当該オーディオ信号のピッチシフティングをもたらすような、
    ターゲットセグメントを削除する場合において、サンプル数の減少による相対的な変化と同じ比率で減少した期間がオーディオ信号の時間圧縮をもたらすような、
    ターゲットセグメントを繰返す場合において、サンプル数の増加による相対的な変化と同じ比率で増加した期間がオーディオ信号の時間拡張をもたらすような、
    サンプル数の減少による相対的な変化とは異なる比率で減少した期間がオーディオ信号の時間圧縮とピッチシフティングをもたらすような、あるいは、
    サンプル数の増加による相対的な変化とは異なる比率で増加した期間がオーディオ信号の時間拡張とピッチシフティングをもたらすようなレートで読み出だされる、請求項33に記載の方法。
  35. リーディングセグメントとトレイリングセグメントとをスプライスポイントで結合する前記ステップは、当該リーディングセグメントと当該トレイリングセグメントをクロスフェードすることを含む請求項33に記載の方法。
  36. ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合は、前記エンドポイントは、スプライスポイントに続くオーディオのセグメントを自己相関計算することで選択される、請求項33に記載の方法。
  37. ターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合は、前記エンドポイントは、スプライスポイントに先行するオーディオのセグメント及び後に続くオーディオのセグメントを自己相関計算することで選択される、請求項33に記載の方法。
  38. ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合又はターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合は、スプライスポイントの位置及びエンドポイントの位置は、
    連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域に対して、連続した試験的なスプライスポイントの位置の周辺のオーディオサンプルの窓について相関計算し、そして、
    最強の相関となる試験的なスプライスポイントの位置を決定し、この試験的なスプライスポイントの位置をスプライスポイントに指定し、最強の相関となる位置に実質的なエンドポイント位置を設定する、請求項33に記載の方法。
  39. 前記窓は方形窓である請求項38に記載の方法。
  40. 前記窓は実質的にクロスフェードの幅を持つ請求項39に記載の方法。
  41. 前記連続した試験的なスプライスポイントの位置は、2以上のオーディオサンプルにより間隔が保たれている請求項38に記載の方法。
  42. 前記連続した試験的なスプライスポイントの位置は、実質的に前記窓の幅により間隔が保たれている請求項41に記載の方法。
  43. 前記窓は実質的にクロスフェードの幅を持っている請求項42に記載の方法。
  44. ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合に、連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域は、各試験的なスプライスポイント位置に続き、スプライスポイントがエンドポイントに先行する請求項38に記載の方法。
  45. ターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合に、連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域は、各試験的なスプライスポイント位置に続き、スプライスポイントとエンドポイントの地位が入れ替えられ、エンドポイントがスプライスポイントに先行する請求項38に記載の方法。
  46. ターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合に、連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域は、各試験的なスプライスポイント位置に先行し、エンドポイントがスプライスポイントに先行する請求項38に記載の方法。
  47. ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合又はターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合において、スプライスポイントの位置とエンドポイントの位置は、
    連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域に対して、連続した試験的なスプライスポイントの位置の周辺のオーディオサンプルの窓について相関計算し、前記オーディオサンプルのすべてを係数Mで縮小し、
    最強の相関となる試験的なスプライスポイントの位置を決定し、この試験的なスプライスポイントの位置を縮小されたスプライスポイントに指定し、
    第2の連続した各試験的なスプライスポイントの位置に隣り合う縮小されていないオーディオサンプルの領域に対して、前記縮小されたスプライスポイントのM個のサンプル内で、第2の連続した試験的なスプライスポイントの位置の周辺の縮小されていないオーディオサンプルの窓について相関計算し、
    最強の相関となる試験的なスプライスポイントの位置を前記第2の連続部に決定し、この試験的なスプライスポイントの位置をスプライスポイントに指定し、最高の相関となる位置に実質的にエンドポイントの位置を設定する
    ことにより、選定される請求項33に記載の方法。
  48. 各チャンネル内のオーディオ信号をオーディトリーイベントに分割し、
    オーディオ信号のいずれかのチャンネルでオーディトリーイベントの境界が発生したとき、各々が境界を持つような結合されたオーディトリーイベントを決定し、そして、
    結合されたオーディトリーイベント内で前記オーディオ信号チャンネルにタイムスケーリング及び/又はピッチシフティング処理を、各々のチャンネルのオーディトリーイベント又はオーディトリーイベントの一部で行うことを含む、複数個のオーディオ信号チャンネルのタイムスケーリング及び/又はピッチシフティングの方法であって、
    前記タイムスケーリング及び/又はピッチシフティング処理は、
    オーディオ信号の各チャンネル間の結合されたオーディトリーイベントに共通のスプライスポイントを選択し、そこで、多数のオーディオ信号のチャンネルの各々にある共通の前記スプライスポイントからの結果として生まれるスプライスポイントは、実質的にお互いに一列に並べられ、各スプライスポイントが当該スプライスポイントを導くオーディオ信号のリーディングセグメントを決定し、
    前記結合されたオーディトリーイベント内に前記共通のエンドポイントを選択して前記共通のスプライスポイントから間隔をあけて配置し、多数のオーディオ信号のチャンネルの各々にある前記共通のエンドポイントは、実質的にお互いに一列に並べられ、エンドポイントの後ろに続くオーディオ信号のトレイリングセグメントと、当該スプライスポイントとエンドポイントの間にターゲットセグメントを決定し、
    前記リーディングセグメントとトレイリングセグメントとを前記スプライスポイントで結合し、当該エンドポイントが前記スプライスポイントより大きなサンプル数を有する場合は当該ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少し、又は、当該エンドポイントが前記スプライスポイントより小さなサンプル数を有する場合は当該ターゲットセグメントを繰返すことでオーディオ信号サンプルの数を増大し、
    オーディオ信号の各チャンネルで結合されたリーディングセグメントとトレイリングセグメントを、多数チャンネルのオーディオ信号に要求されたタイムスケーリング及び/又はピッチシフティングを生じるようなレートで読み出すことを含む、方法。
  49. 結合されたリーディングセグメントとトレイリングセグメントが、
    オリジナルの期間と同じ期間が当該オーディオ信号のピッチシフティングをもたらすような、
    ターゲットセグメントを削除する場合において、サンプル数の減少による相対的な変化と同じ比率で減少した期間がオーディオ信号の時間圧縮をもたらすような、
    ターゲットセグメントを繰返す場合において、サンプル数の増加による相対的な変化と同じ比率で増加した期間がオーディオ信号の時間拡張をもたらすような、
    サンプル数の減少による相対的な変化とは異なる比率で減少した期間がオーディオ信号の時間圧縮とピッチシフティングをもたらすような、あるいは、
    サンプル数の増加による相対的な変化とは異なる比率で増加した期間がオーディオ信号の時間拡張とピッチシフティングをもたらすようなレートで読み出だされる、請求項48に記載の方法。
  50. 各チャンネル内のオーディオ信号をオーディトリーイベントに分割し、
    オーディオ信号のタイムスケーリング及び/又はピッチシフティングの処理が非可聴に又は最小限の可聴性で処理されるようなオーディトリーイベントを特定するためサイコアコースティックな基準を用いて前記オーディトリーイベントを分析し、
    オーディオ信号のタイムスケーリング及び/又はピッチシフティングの処理が非可聴に又は最小限の可聴性で処理されるようなものとして特定されたオーディトリーイベント内でタイムスケーリング及び/又はピッチシフティング処理を行うことを含む、オーディオ信号のタイムスケーリング及び/又はピッチシフティングの方法であって、
    前記タイムスケーリング及び/又はピッチシフティングの処理は、
    前記オーディトリーイベント内にスプライスポイントを選定し、当該スプライスポイントを導くオーディオ信号のリーディングセグメントを決定し、
    前記スプライスポイントから間隔を置いて前記オーディトリーイベント内にエンドポイントを選定し、当該エンドポイントの後に続くオーディオ信号のトレイリングセグメントと、当該スプライスポイントとエンドポイントの間にターゲットセグメントを決定し、
    前記リーディングセグメントとトレイリングセグメントとを前記スプライスポイントで結合し、当該エンドポイントが前記スプライスポイントより大きなサンプル数を有する場合は当該ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少し、又は、当該エンドポイントが前記スプライスポイントより小さなサンプル数を有する場合は当該ターゲットセグメントを繰返すことでオーディオ信号サンプルの数を増大し、
    結合されたリーディングセグメントとトレイリングセグメントを要求されたタイムスケーリング及び/又はピッチシフティングを生じるようなレートで読み出すことを含む、方法。
  51. 結合されたリーディングセグメントとトレイリングセグメントが、
    オリジナルの期間と同じ期間が当該オーディオ信号のピッチシフティングをもたらすような、
    ターゲットセグメントを削除する場合において、サンプル数の減少による相対的な変化と同じ比率で減少した期間がオーディオ信号の時間圧縮をもたらすような、
    ターゲットセグメントを繰返す場合において、サンプル数の増加による相対的な変化と同じ比率で増加した期間がオーディオ信号の時間拡張をもたらすような、
    サンプル数の減少による相対的な変化とは異なる比率で減少した期間がオーディオ信号の時間圧縮とピッチシフティングをもたらすような、あるいは、
    サンプル数の増加による相対的な変化とは異なる比率で増加した期間がオーディオ信号の時間拡張とピッチシフティングをもたらすようなレートで読み出だされる、請求項50に記載の方法。
  52. 前記リーディングセグメントとトレイリングセグメントとをスプライスポイントで結合する前記ステップは、当該リーディングセグメントと当該トレイリングセグメントをクロスフェードすることを含む請求項50に記載の方法。
  53. ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合は、前記エンドポイントは、スプライスポイントに続くオーディオのセグメントを自己相関計算することで選択される、請求項50に記載の方法。
  54. ターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合は、前記エンドポイントは、スプライスポイントに先行するオーディオのセグメント及び後に続くオーディオのセグメントを自己相関計算することで選択される、請求項50に記載の方法。
  55. ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合又はターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合は、スプライスポイントの位置及びエンドポイントの位置は、
    連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域に対して、連続した試験的なスプライスポイントの位置の周辺のオーディオサンプルの窓について相関計算し、そして、
    最強の相関となる試験的なスプライスポイントの位置を決定し、この試験的なスプライスポイントの位置をスプライスポイントに指定し、最強の相関となる位置に実質的なエンドポイント位置を設定する、請求項50に記載の方法。
  56. 前記窓は方形窓である請求項55に記載の方法。
  57. 前記窓は実質的にクロスフェードの幅を持つ請求項56に記載の方法。
  58. 前記連続した試験的なスプライスポイントの位置は、2以上のオーディオサンプルにより間隔が保たれている請求項55に記載の方法。
  59. 前記連続した試験的なスプライスポイントの位置は、実質的に前記窓の幅により間隔が保たれている請求項58に記載の方法。
  60. 前記窓は実質的にクロスフェードの幅を持っている請求項59に記載の方法。
  61. ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合に、連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域は、各試験的なスプライスポイント位置に続き、スプライスポイントがエンドポイントに先行する請求項55に記載の方法。
  62. ターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合に、連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域は、各試験的なスプライスポイント位置に続き、スプライスポイントとエンドポイントの地位が入れ替えられ、エンドポイントがスプライスポイントに先行する請求項55に記載の方法。
  63. ターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合に、連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域は、各試験的なスプライスポイント位置に先行し、エンドポイントがスプライスポイントに先行する請求項55に記載の方法。
  64. ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合又はターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合において、スプライスポイントの位置とエンドポイントの位置は、
    連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域に対して、連続した試験的なスプライスポイントの位置の周辺のオーディオサンプルの窓について相関計算し、前記オーディオサンプルのすべてを係数Mで縮小し、
    最強の相関となる試験的なスプライスポイントの位置を決定し、この試験的なスプライスポイントの位置を縮小されたスプライスポイントに指定し、
    第2の連続した各試験的なスプライスポイントの位置に隣り合う縮小されていないオーディオサンプルの領域に対して、前記縮小されたスプライスポイントのM個のサンプル内で、第2の連続した試験的なスプライスポイントの位置の周辺の縮小されていないオーディオサンプルの窓について相関計算し、
    最強の相関となる試験的なスプライスポイントの位置を前記第2の連続部に決定し、この試験的なスプライスポイントの位置をスプライスポイントに指定し、最高の相関となる位置に実質的にエンドポイントの位置を設定する
    ことにより、選定される請求項50に記載の方法。
  65. 各チャンネル内のオーディオ信号をオーディトリーイベントに分割し、
    オーディオ信号のタイムスケーリング及び/又はピッチシフティングの処理が非可聴に又は最小限の可聴性で処理されるようなオーディトリーイベントを特定するため、少なくとも1つのサイコアコースティックな基準を用いて前記オーディトリーイベントを分析し、
    オーディオ信号のいずれかのチャンネルでオーディトリーイベントの境界が発生したところに、各々が境界を持つような結合されたオーディトリーイベントを決定し、
    多数チャンネルオーディオ信号のタイムスケーリング及び/又はピッチシフティングの処理が、非可聴に又は最小限の可聴性で処理されるようなものとして特定された結合されたオーディトリーイベント内で、タイムスケーリング及び/又はピッチシフティング処理を行うことを含む、多数チャンネルオーディオ信号のタイムスケーリング及び/又はピッチシフティングの方法であって、
    前記タイムスケーリング及び/又はピッチシフティング処理は、
    オーディオ信号の各チャンネル間で特定された結合されたオーディトリーイベントに共通のスプライスポイントを選択し、そこで、多数のオーディオ信号のチャンネルの各々にある共通の前記スプライスポイントからの結果として生まれるスプライスポイントは、実質的にお互いに一列に並べられ、各スプライスポイントが当該スプライスポイントを導くオーディオ信号のリーディングセグメントを決定し、
    前記共通のスプライスポイントから間隔をあけて配置された、前記結合されたオーディトリーイベント内に共通のエンドポイントを選択し、多数のオーディオ信号のチャンネルの各々の前記共通のエンドポイントからの結果として生まれるエンドポイントは、実質的にお互いに一列に並べられ、エンドポイントの後ろに続くオーディオ信号のトレイリングセグメントと、当該スプライスポイントとエンドポイントの間にターゲットセグメントを決定し、
    前記リーディングセグメントとトレイリングセグメントとをオーディオ信号の各チャンネル内の前記スプライスポイントで結合し、当該エンドポイントが前記スプライスポイントより大きなサンプル数を有する場合は当該ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少し、又は、当該エンドポイントが前記スプライスポイントより小さなサンプル数を有する場合は当該ターゲットセグメントを繰返すことでオーディオ信号サンプルの数を増大し、
    オーディオ信号の各チャンネルで結合されたリーディングセグメントとトレイリングセグメントを、多数チャンネルのオーディオ信号に要求されたタイムスケーリング及び/又はピッチシフティングを生じるようなレートで読み出すことを含む、方法。
JP2002581514A 2001-04-13 2002-02-12 オーディオ信号の高品質タイムスケーリング及びピッチスケーリング Expired - Lifetime JP4152192B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US83473901A 2001-04-13 2001-04-13
US29382501P 2001-05-25 2001-05-25
US09/922,394 US20020116178A1 (en) 2001-04-13 2001-08-02 High quality time-scaling and pitch-scaling of audio signals
US4564402A 2002-01-11 2002-01-11
PCT/US2002/004317 WO2002084645A2 (en) 2001-04-13 2002-02-12 High quality time-scaling and pitch-scaling of audio signals

Publications (3)

Publication Number Publication Date
JP2004527000A JP2004527000A (ja) 2004-09-02
JP2004527000A5 JP2004527000A5 (ja) 2006-01-05
JP4152192B2 true JP4152192B2 (ja) 2008-09-17

Family

ID=27489006

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002581514A Expired - Lifetime JP4152192B2 (ja) 2001-04-13 2002-02-12 オーディオ信号の高品質タイムスケーリング及びピッチスケーリング

Country Status (7)

Country Link
EP (2) EP1377967B1 (ja)
JP (1) JP4152192B2 (ja)
CN (1) CN1279511C (ja)
CA (1) CA2443837C (ja)
MX (1) MXPA03009357A (ja)
TW (1) TWI226602B (ja)
WO (1) WO2002084645A2 (ja)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
DK1386312T3 (da) 2001-05-10 2008-06-09 Dolby Lab Licensing Corp Forbedring af transient ydeevne af audio kodningssystemer med lav bithastighed ved reduktion af forudgående stöj
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7179980B2 (en) * 2003-12-12 2007-02-20 Nokia Corporation Automatic extraction of musical portions of an audio stream
ATE390683T1 (de) 2004-03-01 2008-04-15 Dolby Lab Licensing Corp Mehrkanalige audiocodierung
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
JP4031813B2 (ja) 2004-12-27 2008-01-09 株式会社ピー・ソフトハウス オーディオ信号処理装置、オーディオ信号処理方法およびその方法をコンピュータに実行させるプログラム
EP1927102A2 (en) 2005-06-03 2008-06-04 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
DE102005045573B3 (de) * 2005-06-22 2006-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln einer Stelle in einem Film
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
WO2007036824A2 (en) * 2005-09-30 2007-04-05 Koninklijke Philips Electronics N.V. Method and apparatus for processing audio for playback
GB2431839B (en) * 2005-10-28 2010-05-19 Sony Uk Ltd Audio processing
US7831434B2 (en) 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
RU2417514C2 (ru) 2006-04-27 2011-04-27 Долби Лэборетериз Лайсенсинг Корпорейшн Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий
KR101482199B1 (ko) * 2006-07-24 2015-01-14 마벨 월드 트레이드 리미티드 오디오 모니터링을 구비한 자기 및 광학 회전형 저장 시스템
WO2008021247A2 (en) 2006-08-15 2008-02-21 Dolby Laboratories Licensing Corporation Arbitrary shaping of temporal noise envelope without side-information
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8295684B2 (en) * 2007-10-08 2012-10-23 Sony Computer Entertainment America Inc. Method and system for scaling content for playback with variable duration
US9275652B2 (en) * 2008-03-10 2016-03-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Device and method for manipulating an audio signal having a transient event
AU2012216537B2 (en) * 2008-03-10 2013-10-10 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Device and method for manipulating an audio signal having a transient event
US20090259672A1 (en) * 2008-04-15 2009-10-15 Qualcomm Incorporated Synchronizing timing mismatch by data deletion
US8762561B2 (en) * 2008-07-23 2014-06-24 Qualcomm Incorporated System, method or apparatus for combining multiple streams of media data
WO2010101527A1 (en) * 2009-03-03 2010-09-10 Agency For Science, Technology And Research Methods for determining whether a signal includes a wanted signal and apparatuses configured to determine whether a signal includes a wanted signal
US8498874B2 (en) 2009-09-11 2013-07-30 Sling Media Pvt Ltd Audio signal encoding employing interchannel and temporal redundancy reduction
DE102010001147B4 (de) 2010-01-22 2016-11-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Mehrfrequenzbandempfänger auf Basis von Pfadüberlagerung mit Regelungsmöglichkeiten
AU2011226212B2 (en) 2010-03-09 2014-03-27 Dolby International Ab Apparatus and method for processing an input audio signal using cascaded filterbanks
EP2545551B1 (en) 2010-03-09 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Improved magnitude response and temporal alignment in phase vocoder based bandwidth extension for audio signals
CA2792368C (en) 2010-03-09 2016-04-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for handling transient sound events in audio signals when changing the replay speed or pitch
US8212923B2 (en) * 2010-04-13 2012-07-03 Newport Media, Inc. SECAM line identification and PAL switch
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
KR101953613B1 (ko) 2013-06-21 2019-03-04 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 지터 버퍼 제어부, 오디오 디코더, 방법 및 컴퓨터 프로그램
MY171256A (en) 2013-06-21 2019-10-07 Fraunhofer Ges Forschung Time scaler, audio decoder, method and a computer program using a quality control
CN103796145B (zh) * 2014-01-26 2017-01-11 深圳市微纳集成电路与系统应用研究院 听觉阈值确定方法、听觉阈值确定装置及助听器
CN106060268A (zh) * 2016-06-30 2016-10-26 维沃移动通信有限公司 一种移动终端的语音输出方法及移动终端
WO2018180197A1 (ja) 2017-03-28 2018-10-04 日本電気株式会社 データ解析装置、データ解析方法およびデータ解析プログラム
EP3673671A1 (en) * 2017-08-25 2020-07-01 Sony Europe B.V. Audio processing to compensate for time offsets
CN112437957B (zh) 2018-07-27 2024-09-27 杜比实验室特许公司 用于全面收听的强加间隙插入
CN109817237A (zh) * 2019-03-06 2019-05-28 小雅智能平台(深圳)有限公司 一种音频自动处理方法、终端及计算机可读存储介质
EP3949368B1 (en) 2019-04-03 2023-11-01 Dolby Laboratories Licensing Corporation Scalable voice scene media server
CN112951218B (zh) * 2021-03-22 2024-03-29 百果园技术(新加坡)有限公司 基于神经网络模型的语音处理方法、装置及电子设备
CN114827657B (zh) * 2022-04-28 2025-01-07 腾讯音乐娱乐科技(深圳)有限公司 一种音频拼接方法、设备及存储介质
CN117676253A (zh) * 2022-08-25 2024-03-08 中兴通讯股份有限公司 视频的播放方法、终端设备及存储介质
CN116343818B (zh) * 2023-02-14 2026-01-30 昆明领飞科技有限公司 一种音频波形图绘制和缩放方法、系统和存储介质
CN116189681B (zh) * 2023-05-04 2023-09-26 北京水晶石数字科技股份有限公司 一种智能语音交互系统及方法
CN116453529B (zh) * 2023-05-12 2026-02-06 上海格子互动信息技术有限公司 一种用于实时情感语音转换的方法及系统
CN116631377B (zh) * 2023-05-19 2025-10-31 维沃移动通信有限公司 数据扩充方法、装置、电子设备及可读存储介质
CN117272479B (zh) * 2023-10-08 2024-02-23 山东鑫之源新材料科技有限公司 基于荷载时程分析的高强度土工膜顶破强度预测方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4624009A (en) * 1980-05-02 1986-11-18 Figgie International, Inc. Signal pattern encoder and classifier
JPS57172511A (en) * 1981-04-17 1982-10-23 Sanyo Electric Co Ltd Time-axis compressing and expanding circuit
US4464784A (en) * 1981-04-30 1984-08-07 Eventide Clockworks, Inc. Pitch changer with glitch minimizer
JPS62108299A (ja) * 1985-11-06 1987-05-19 ヤマハ株式会社 ピツチ変換方法
US5175769A (en) * 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
JPH1074097A (ja) * 1996-07-26 1998-03-17 Ind Technol Res Inst オーディオ信号のパラメータを変更する方法及び装置
US6049766A (en) * 1996-11-07 2000-04-11 Creative Technology Ltd. Time-domain time/pitch scaling of speech or audio signals with transient handling
JP3017715B2 (ja) * 1997-10-31 2000-03-13 松下電器産業株式会社 音声再生装置
US6266644B1 (en) * 1998-09-26 2001-07-24 Liquid Audio, Inc. Audio encoding apparatus and methods
JP4300641B2 (ja) * 1999-08-10 2009-07-22 ヤマハ株式会社 マルチトラック音源信号の時間軸圧伸方法及び装置
JP4344438B2 (ja) * 1999-10-22 2009-10-14 ローランド株式会社 オーディオ信号波形処理装置

Also Published As

Publication number Publication date
EP1377967A2 (en) 2004-01-07
CA2443837A1 (en) 2002-10-24
EP1377967B1 (en) 2013-04-10
EP2261892B1 (en) 2020-09-16
MXPA03009357A (es) 2004-02-18
EP2261892A2 (en) 2010-12-15
HK1066088A1 (en) 2005-03-11
CN1511312A (zh) 2004-07-07
EP2261892A3 (en) 2013-08-21
WO2002084645A2 (en) 2002-10-24
CN1279511C (zh) 2006-10-11
WO2002084645A3 (en) 2002-12-19
JP2004527000A (ja) 2004-09-02
CA2443837C (en) 2012-06-19
TWI226602B (en) 2005-01-11

Similar Documents

Publication Publication Date Title
JP4152192B2 (ja) オーディオ信号の高品質タイムスケーリング及びピッチスケーリング
US8195472B2 (en) High quality time-scaling and pitch-scaling of audio signals
US12301189B2 (en) Audio control using auditory event detection
US20020116178A1 (en) High quality time-scaling and pitch-scaling of audio signals
US9165562B1 (en) Processing audio signals with adaptive time or frequency resolution
EP2549475B1 (en) Segmenting audio signals into auditory events
EP1393300B1 (en) Segmenting audio signals into auditory events
Crockett High quality multi-channel time-scaling and pitch-shifting using auditory scene analysis
US20100169105A1 (en) Discrete time expansion systems and methods
KR100870870B1 (ko) 오디오 신호의 고품질 타임 스케일링 및 피치 스케일링
AU2002248431A1 (en) High quality time-scaling and pitch-scaling of audio signals
HK1066902B (en) Segmenting audio signals into auditory events
HK1175882B (en) Segmenting audio signals into auditory events

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080610

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080701

R150 Certificate of patent or registration of utility model

Ref document number: 4152192

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110711

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110711

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120711

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120711

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130711

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term