JP4152192B2 - オーディオ信号の高品質タイムスケーリング及びピッチスケーリング - Google Patents
オーディオ信号の高品質タイムスケーリング及びピッチスケーリング Download PDFInfo
- Publication number
- JP4152192B2 JP4152192B2 JP2002581514A JP2002581514A JP4152192B2 JP 4152192 B2 JP4152192 B2 JP 4152192B2 JP 2002581514 A JP2002581514 A JP 2002581514A JP 2002581514 A JP2002581514 A JP 2002581514A JP 4152192 B2 JP4152192 B2 JP 4152192B2
- Authority
- JP
- Japan
- Prior art keywords
- splice point
- audio signal
- samples
- audio
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 237
- 238000012545 processing Methods 0.000 claims abstract description 217
- 238000000034 method Methods 0.000 claims description 232
- 238000004458 analytical method Methods 0.000 claims description 136
- 230000008569 process Effects 0.000 claims description 121
- 230000001052 transient effect Effects 0.000 claims description 98
- 238000004364 calculation method Methods 0.000 claims description 95
- 238000007906 compression Methods 0.000 claims description 46
- 230000006835 compression Effects 0.000 claims description 45
- 230000008859 change Effects 0.000 claims description 40
- 230000002829 reductive effect Effects 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 22
- 230000007423 decrease Effects 0.000 claims description 16
- 230000003247 decreasing effect Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 6
- 238000005304 joining Methods 0.000 claims description 6
- 230000000873 masking effect Effects 0.000 description 70
- 238000013144 data compression Methods 0.000 description 46
- 230000003595 spectral effect Effects 0.000 description 30
- 238000001514 detection method Methods 0.000 description 24
- 230000002123 temporal effect Effects 0.000 description 18
- 238000001228 spectrum Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 238000005070 sampling Methods 0.000 description 15
- 238000005314 correlation function Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 14
- 238000012952 Resampling Methods 0.000 description 12
- 230000009467 reduction Effects 0.000 description 12
- 238000012550 audit Methods 0.000 description 11
- 238000013459 approach Methods 0.000 description 7
- 239000000463 material Substances 0.000 description 6
- 230000035945 sensitivity Effects 0.000 description 6
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- ZYXYTGQFPZEUFX-UHFFFAOYSA-N benzpyrimoxan Chemical compound O1C(OCCC1)C=1C(=NC=NC=1)OCC1=CC=C(C=C1)C(F)(F)F ZYXYTGQFPZEUFX-UHFFFAOYSA-N 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000011365 complex material Substances 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/60—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/325—Musical pitch modification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/375—Tempo or beat alterations; Music timing control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/541—Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/04—Synchronising
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Stereophonic System (AREA)
- Electrophonic Musical Instruments (AREA)
- Electrically Operated Instructional Devices (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Description
スプライスポイントがオーディオ信号の領域内で選択され、それにより時間内にスプライスポイントを導くオーディオ信号のリーディングセグメントを定義し、
スプライスポイントから間隔を空けてエンドポイントが選択され、それにより時間内にエンドポイントを追跡するオーディオ信号の追跡セグメントと、スプライスポイントとエンドポイントの間にオーディオ信号のターゲットセグメントを定義し、
リーディングセグメントと追跡セグメントはスプライスポイントで結合され、それにより、エンドポイントが前記スプライスポイントより時間的に遅くなったとき(より多いサンプル数を持つ)、ターゲットセグメントを削除すること、あるいは、エンドポイントが前記スプライスポイントより時間的に早くなったとき、ターゲットセグメントを繰返すことで継続時間を長くする(サンプル数を増加する)ことで、オーディオ信号の継続時間を短くし(サンプルにより代表させるディジタルオーディオの場合は、オーディオ信号のサンプル数を少なくする)、そして
要求するタイムスケーリング及び/又はピッチシフティングをもたらすレートで、結合されたリーディングセグメントと追跡セグメントを読み取る。
オリジナルの継続時間と同じ継続時間がオーディオ信号のピッチシフティングとなり、
ターゲットセグメントが削除されたばあいは、サンプル数の減少に関係する変化と同じ比率で減少した継続時間がオーディオ信号の時間圧縮となり、
ターゲットセグメントが繰返されたばあいは、サンプル数の増加に関係する変化と同じ比率で増加した継続時間がオーディオ信号の時間拡張となり、
サンプル数の減少に関係する変化とは別の比率で減少した継続時間がオーディオ信号の時間圧縮及びオーディオ信号のピッチシフティングとなり、あるいは
サンプル数の増加に関係する変化とは別の比率で増加した継続時間がオーディオ信号の時間拡張及びオーディオ信号のピッチシフティングとなる
ようなレートで読み取られる。
本明細書において、「データ圧縮」とは、セグメントを削除してサンプル数を減少し、時間を縮めることを意味し、「データ拡張」とは、セグメントを繰返してサンプル数を増加し、時間を拡張することを意味する。オーディオの「領域」、「セグメント」及び「ポーション」は各々、シングルチャンネルからの、概念的には時間における2つの瞬間の間(ある瞬間から次の瞬間までの期間)のオーディオの、有限的に連続する部分を表現する。このような、領域、セグメントあるいはポーションは、連続的な標本値又はインデックス番号を持つサンプルで代表することができる。「特定された領域」とは、サイコアコースティックな基準により特定され、スプライスポイント及び普通はエンドポイントがあるオーディオの領域、セグメント又はポーションを意味する。「相関処理領域」とは、エンドポイント、もしくはスプライスポイント及びエンドポイント、を見つけるために相関関係の算定をするための領域、セグメント又はポーションを意味する。「サイコアコースティックな基準」には、時間領域におけるマスキング、周波数領域におけるマスキング、及び/又は他のサイコアコースティックな要因をベースとする基準が含まれる。以上に説明した通り、「ターゲットセグメント」は、データ圧縮の際には削除され、あるいは、データ拡張の際には繰返されるオーディオの部分を意味する。
本発明の特徴は、人間の聴覚と、特に、マスキングとして知られているサイコアコースティックな現象をうまく利用するものである。簡易化されたマスキングの概念は図1及び以下の議論により把握することができる。図1中の実線は、そのレベルにおける正弦曲線や峡帯域ノイズのようなオーディオがちょうど聞こえるオーディオレベルすなわち、聴覚の閾値を示している。この曲線より上部にある音は可聴であり、下部にある音は可聴ではない。この閾値は明らかに大きく周波数に依存する。例えば4kHzでは、50Hzや15kHzの音に比べてはるかに小さな音も聞くことができる。25kHzにおいては、閾値はスケールを外れており、どんなに大きな音も聞こえない。
サイコアコースティック分析を採用することは、タイム及び/又はピッチスケーリングを提供する過程において、不要な可聴のアーティファクトを減少させる上で実用的であるが、オーディオを「イベント」あるいは「聴覚イベント」と呼ばれる時間セグメントに分割し、その各々を別々なものとして認識し、そのイベント内でタイムスケーリング及び/又はピッチスケーリングを実行することによって、不要な可聴のアーティファクトの減少を実行することが可能である。オーディオを別のものと認識されるユニットに分割することは、「オーディトリーイベントアナリシス」又は「オーディトリーシーンアナリシス」(「ASA」)と呼ばれる。サイコアコースティックアナリシス及びオーディトリーシーンアナリシスは、タイム及び/又はピッチスケーリング過程における不要な可聴のアーティファクトを減少させることを補助するため、独立に採用されるが、お互いに組合せることで好都合に用いることができる。
最小エンドポイントの位置=((時間尺度比率‐1.0)*ブロックサイズ)
と等しくなる。
サイコアコースティックアナリシスを伴う本発明に係る単一又は多数チャンネルのタイムスケーリング及び/又はピッチスケーリング処理を説明するフローチャートを図5に示す。サイコアコースティックアナリシスとオーディトリーシーンアナリシスの両方を伴う本発明に係る単一又は多数チャンネルのタイムスケーリング及び/又はピッチスケーリング処理を説明するフローチャートを図17に示し、以下に説明する。本発明の他の形態は、図5と図17の処理の変形或いは一部をなす。この処理は、実時間のピッチスケーリングと実時間でないピッチ及びタイムスケーリングを実施するために用いることができる。異なる比率で再生するためには入力オーディオ信号をバッファしておかなければならず、バッファのアンダーフローやオーバーフローをもたらすため、待ち時間の少ないタイムスケーリング処理は実時間の場面では効率的に運用できない。すなわち、バッファは受け取った入力信号とは異なる比率では空になるのである。
図5において、最初のステップである決定ステップ(「入力データ?」)は、ディジタル化された入力データはデータ圧縮或いはデータ拡張処理が可能かどうかを決定する。データの発信源は、例えば、リアルタイムに入力バッファに蓄えることのできる、コンピュータのファイルやひとかたまりの入力データとすることができる。もしデータが有効であるならば、同時に発生したセグメントを表すN個の同期化されたひとかたまりのサンプルデータは、ステップ204(「各チャンネルのサンプルを入手」)で、データ圧縮又はデータ拡張処理のために入力チャンネルごとに1つのブロックとしてまとめられる(チャンネル数は1以上である)。処理に使われる入力データのサンプル数Nは、合理的なサンプル数に固定され、その数により入力データをブロックに分割する。原則として、処理するオーディオはディジタルでもアナログでも良く、ブロックに分割されている必要はない。
以下の入力データブロックは、サイコアコースティックアナリシス206(「各入力データブロックにおけるサイコアコースティックアナリシス処理」)は各チャンネルへの入力データブロックに対して実行される。多数チャンネルの場合は、サイコアコースティックアナリシス206とそれに付随するステップはすべてのチャンネルに対して並列に処理するか、または、チャンネルからチャンネルへと(各チャンネルのデータと各々の分析に適当な記憶装置を準備することにより)順次処理することが可能である。並列処理は非常に高い処理能力を必要とするが、実時間処理のアプリケーションには並列処理が好ましい。図5の説明はチャンネルは並列に処理することを仮定する。
処理206−1は、各チャンネルのデータブロックを分析し、もしあれば、オーディオ信号のトランジエントの位置を決定する。時間的なトランジエントの情報は、マスキングの分析と暫定的なスプライスポイントの位置決定のために用いられる(この例におけるサイコアコースティックアナリシス処理の最後のサブステップ)。先に論じたように、トランジエントは時間的なマスキング(トランジエントが発生した前と後ろの両方でオーディオ情報を隠す)をもたらすことは良く知られている。
図6を再度参照すると、サイコアコースティックアナリシス処理の2番目のステップ206−2、つまり可聴閾値分析は、十分低い信号強度を持ち、可聴閾値以下であると考えられるオーディオセグメントの位置と継続時間を決定する。上記で論じた通り、これらのオーディオセグメントが対象となる。なぜなら、タイムスケーリング及びピッチシフティングにより誘起されたアーティファクトはほとんどこのような領域内では可聴とならないためである。
3番目のサブステップ、つまり高周波分析ステップは、支配的な高周波のオーディオ内容を持つオーディオセグメントの位置と長さを決める。高周波セグメントは、約10−12kHzであり、静かな状態での可聴領域は約10−12kHz以上に急激に上昇し、支配的な高周波の波形の不連続に対しては、支配的なより低周波の波形の不連続に対してより、耳の感度は鈍くなるため、高周波セグメントにおいてはサイコアコースティックアナリシスに関心が向く。オーディオシグナルの大部分が高周波エネルギーを有するかどうかを決定する有効な方法はたくさんあるが、ここで述べる方法は、良い検出結果をもたらしコンピュータの負担を最小限にするものである。とはいうものの、他の方法を採用してもかまわない。記載の方法は、その領域が強い低周波成分と高周波成分の両方を持っていた場合、その領域を高周波領域の範疇に入れない。これは、低周波成分は、データ圧縮又はデータ拡張処理がなされたとき、より可聴なアーティファクトを発生しやすいからである。
サイコアコースティックアナリシス処理の4番目のステップ206−4、つまりオーディオデータブロックレベル分析は、入力データブロックを分析し、入力データブロック内で最も低い信号強度の(振幅の)オーディオセグメントの位置を定める。このオーディオレベル分析情報は、処理仮定において活用されるサイコアコースティックなマスキングイベントが、現入力ブロックに含まれていない場合に、用いられる(例えば、入力がトランジエントを含まない定常状態であるばあい、またはオーディオセグメントが可聴閾値以下である場合)。この場合、好ましくはタイムスケーリング処理が、オーディオの最低レベルのセグメントが低レベルの又は非可聴のスプライシングによるアーティファクトになることを根拠として、入力ブロックのオーディオにおいて最低レベルの又は最も静かなセグメント(もしそのようなセグメントがあれば)を助ける。450Hzのトーン(正弦波)を用いた簡単な例を図9に示す。図9に示されたトーン信号はトランジエント、可聴閾値を下回る成分、或いは高周波成分を含まない。しかし、信号の中央部はブロック内の信号の最初と最後の部分に比べて6dB低い。音の大きい最後部分よりも、静かな中央部分に焦点を当てたほうが、オーディオデータの圧縮又はアーティファクトの処理におけるデータ拡張が最小限になると考えられる。
図6のサイコアコースティックアナリシス処理の最後のサブステップ206−5(「スプライスポイントとクロスフェードパラメータの暫定的な設定」)では、これまでのステップで集めた情報を、入力ブロック中にサイコアコースティック的に最適な特定された領域を選定するために、そしてスプライスポイントとクロスフェードの長さを特定された領域内に設定するために用いられる。
先に述べたように、クロスフェードはオーディオアーティファクトを最小にするために用いられる。図10はクロスフェードの適用方法を概念的に描いたものである。クロスフェードの結果は波形が結合されるスプライスポイントを跨ることになる。図10において、スプライスポイントの前から始まる破線は、信号波形に適用された最大振幅から最小振幅へ非線形なダウンワードフェードを示し、スプライスポイントにて半分になっている。スプライスポイントを横切るフェードはt1からt2までとなっている。エンドポイントの前から始まる破線は、信号波形に適用された最小振幅から最大振幅への補完的な非線形アップワードフェードを示し、エンドポイントにて半分になっている。エンドポイントを横切るフェードはt3からt4までとなっている。増加方向のフェードと減少方向のフェードは対称的で和は一定である(ハニングとカイザー‐ベッセルの窓はこの特性を有する。従って、クロスフェードがこのような窓に従って形成されるのなら、この要求は満足される)。t1からt2までの継続時間とt3からt4までの継続時間は同じである。このような時間圧縮の例では、スプライスポイントとエンドポイントの間のデータは廃却されることが要求される(クロスアウトと表示される)。これはt2で表されるサンプルとt3であらわされるサンプルとの間のデータを廃棄することで達成される。次いで、t1からt2までのデータとt3からt4までが加算されるようにスプライスポイントとエンドポイントがお互いに(概念的には)重ね合わされ、互いに補完的な特性のアップワードフェードとダウンワードフェードとからなるクロスフェードが完了する。
図6のサブステップ206−1で決定したように、トランジエント信号が存在している場合は、ブロック内のトランジエントの位置に応じて、また、トランジエントの繰返しや痕跡をなくすために(すなわち、トランジエントの一部もころすフェードの中にないことが望ましい)時間拡張又は圧縮処理が実行されたかどうかに応じて、暫定的なスプライスポイントがトランジエントの前後の時間的マスキング領域内のブロックに位置することが望ましい。トランジエント情報はクロスフェードの長さを決めるためにも使われる。1以上の使用不可能な時間的マスキング領域があるような2以上のトランジエントが存在する場合は、(例えばブロック内の位置や長さや強さを考慮して)最適なマスキング領域は、暫定的なスプライスポイントが置かれている特定された領域として選定される。信号トランジエントが存在しない場合は、スプライスポイントとクロスフェードパラメータの暫定的な設定をおこなうサブステップ206−5は、暫定的なスプライスポイントが存在するサイコアコースティックに決定される領域を探すために、可聴閾値セグメント、高周波数、及びサブステップ206−2と206−3と206−4の結果を分析する。もし、可聴閾値セグメント以下の2以上の低レベルセグメントが存在した場合は、暫定的なスプライスポイントが、そのようなセグメント又はそのような、例えば、ブロック内の位置と長さを考慮に入れて、最適セグメント内に設定される。可聴閾値セグメントより低いセグメントが存在しなかった場合、このステップでは、低レベルのオーディオセグメントを探し、1つ又は(例えば、ブロック内の位置と長さを考慮に入れて)最適のそのようなセグメント内に暫定的なスプライスポイントを設定する。その結果、暫定的スプライスポイントが各入力ブロックに置かれている、ただ1つの特定された領域が存在するようになる。以上に注記したように、稀にサイコアコースティックな基準を満たすセグメントがブロック内にない場合があり、このような場合は、そのブロック内には暫定的なスプライスポイントは存在しない。
上述の通り、図6のサイコアコースティックアナリシス処理はすべてのチャンネルの入力ブロックに適用される。図5を再度参照すると、ステップ208(チャンネル数>1?)で判断されて、2以上のオーディオチャンネルが処理されている場合、ステップ206で選択的に暫定的なスプライスポイントが置かれたとき、この暫定的なスプライスポイントは多数チャンネルで同時的とはならない(例えば、一部またはすべてのチャンネルは他のチャンネルとは関係の内オーディオ内容を含んでいるかもしれない)。次のステップ210(「共通スプライスポイントの選択」)では、サイコアコースティックアナリシスステップ206により提供された情報を用いて、共通のスプライスポイントが、多数チャンネルにわたって同時的となるブロック内で選択することが可能なような、多数チャンネルの重複的な特定された領域を定める。
ステップ210(図5)の一部は、重複領域での序列は特定の重複領域は省略できるかどうかを決めるためにも使われる。例えば、すべての特定された領域が最低順位の基準、すなわち「最も静かな部分」のみを満足するような重複領域は、省略してよい。場合によっては、同時的な入力ブロックの特別な組合せに対するチャンネルにおいて共通の重複部分を特定することが出来ないかもしれないが、そのような場合は、ステップ210の一部として、その入力ブロックの組合せに省略フラグが設定される。省略フラグを設定する他の条件も存在する。例えば、1以上のチャンネルに多数のトランジエントが存在し、トランジエントを省略ないし繰返しをしなければデータ圧縮やデータ拡張処理の領域が十分でない場合、または、処理のための領域が十分でない場合は、省略フラグが設定される。
図11は、図5スの多数チャンネルスプライスポイントの選択における分析テップ210の詳細を示す。最初の処理ステップ210−1(「各チャンネルに特定された領域をサイコアコースティックに位置決めさせるためのブロック分析」)は、入力ブロックを分析し、各チャンネルに、上述のように、サイコアコースティックアナリシスを使って特定された領域の位置を決めさせるものである。処理ステップ210−2(「重複して特定された領域のグループ分け」)は、特定された領域の重複部分をグループ分けするものである(チャンネルにまたがって特定された領域をアンド条件で結合する)。次の処理ステップ210−3(「重複して特定された領域における優先順位に基づく共通スプライスポイントの選定・・・」)は、チャンネル間で共通スプライスポイントを選定する。多数の重複して特定された領域の場合は、各重複して特定された領域に関連する序列の基準は、前述の通り、好ましくはサイコアコースティックな基準による序列に従って、特定された領域の重複について順序付けを採用することができる。チャンネル間のマスキング効果についても、重特定された領域に置ける多数の重複に対する序列を考慮に入れてもよい。ステップ210−3は、各チャンネルに多数のトランジエントが存在するかどうか、お互いのトランジエントの近傍か、及び時間圧縮または拡張がなされているかどうかもまた考慮に入れている。エンドポイントがスプライスポイントの前に位置するか後に位置するかを示す(圧縮または拡張)処理のタイプも重要である(図2A−Dに関連して説明されている)。
再度図11を参照すると、ステップ210−3で共通のスプライスポイントが特定されると、処理ステップ210−4(「・・・最小・最大エンドポイント位置の設定」)にて、タイムスケールレート(すなわち、データ圧縮またはデータ拡張に望ましい比率)で最小・最大エンドポイント位置を設定し、特定された領域内の重複する部分内に相関計算をおこなう領域を確保する。代案として、タイムスケールレートと特定された領域の大きさを相関計算に先だって考慮に入れる代わりに、ターゲットセグメントの長さを知る前に、最小・最大エンドポイント位置を、先に述べた7.5や2.5msecなどの既定値として定めてもよい。ステップ210−4では、最小・最大エンドポイント位置と共に、全チャンネルに対する共通の多数チャンネルスプライスポイントが出力される(図12に示す)。ステップ210−4では、ステップ206(図5)のサブステップ206−5(図6)で得られたクロスフェードパラメータの情報を出力する。最大エンドポイント位置は多数チャンネル間の又はクロスチャンネルのトランジエントが存在する場合には重要である。スプライスポイントは、データ圧縮またはデータ拡張処理がトランジエント間で発生するような所に設定されるのが望ましい。エンドポイント位置(従って、究極的には、スプライスポイントの位置、エンドポイント位置、及びクロスフェード長さにより決定されるターゲットセグメント長さ)を適切に設定するために、同じか違うチャンネルにおけるデータ圧縮またはデータ拡張処理と関連して他のトランジエントを考慮することは必要であろう。
再度図5を参照すると、処理における次のステップは、入力ブロック処理における決定212(「複雑性に基づく省略?」)である。このステップは処理省略フラグがステップ210にて設定されているかどうかをチェックし決定する。もし処理省略フラグ設定されていたら、現ブロックのデータは処理されない。
現入力データブロックの処理が実行されることが決定された場合は、図5のステップ214で示したように、2つのタイプの相関計算処理がそのようなデータブロックについて提供される。データブロックの時間領域情報についての相関計算処理は、サブステップ214−1(「重み付け」)と214−2(「各ブロックの時間領域データの相関計算」)により提供される。入力信号の位相情報についての相関計算処理は、サブステップ214−3(「各ブロックの位相計算」)と214−4(「各ブロックの位相データの相関計算処理」)により提供される。入力ブロックデータの位相情報と時間領域情報の結合を用いることによって、時間領域情報のみを用いるより、スピーチから複雑な音楽に至るまでの信号レンジで質の高いタイムスケーリング結果をもたらす。代案として、性能を落としても問題ないと判断される場合は時間領域情報のみで処理してもよい。相関計算処理の詳細は、基本的な原理の説明に続いて、以下に説明する。
Rb(f) = 12200 2 * f 3
(f2 + 20.62)(f2+122002)((f2+158.52)0.5)
低周波成分(約97Hz以下)では0.5に設定される。
2)x(n)によりLポイントFFTを計算し、
3)FFTの結果をそれ自身と重畳し、
4)LポイントのFFT逆変換計算を行い、
ここで、nは、相関処理領域において、サンプルまたはインデックス番号を示すオーディオサンプルを表し、入力データブロックに含まれる時間領域のディジタル化されたデータであり、長さLは処理におけるサンプルの数より2のべき乗分大きい。
Phase(n) = arctan(imag(analytic(x(n)) / real(analytic(x(n)))
ここで、x(n)は相関計算処理領域でのオーディオサンプルを表す入力データブロックに含まれる時間領域でのデータをディジタル化したもので、nはサンプルまたはインデックス数を表す。
Negative going zero crossing of x(n) = + π/2 in phase
Positive going zero crossing of x(n) = - π/2 in phase
Local max of x(n) = 0 in phase
Local min of x(n) = ±π in phase
これらの写像は、介在点とともに、x(n)の振幅と独立した情報をもたらす。各チャンネルのデータの位相計算に続いて、各チャンネルの位相情報についての相関はステップ214−4にて計算され、後の処理のため保存される。
各入力チャンネルのデータブロックに対して、いったん位相および時間領域での相関計算がなされると、図5ステップ216(「クロスフェード位置決定のための多数相関計算処理」)が、図15に詳細を示すように、その処理を行う。図15は、音楽を含む、5つの(左、中央、右、左サウンドおよび右サウンド)入力チャンネルの位相および時間領域での相関を示す。概念的に図16で示した相関計算処理ステップは各チャンネルの位相および時間領域での相関を入力として受け取り、重み値を乗算し、すべてのチャンネルにおける時間領域および位相の相関情報を形成するためにそれらを、総計する。言いかえれば、図16の構成は10の別々の相関を加え合わせるスーパー相関機能であると考えることができる。図16の波形は、最大と最小のエンドポイント位置間の約500のサンプルについて望ましいエンドポイントを構成する最大相関値を示している。この例では、スプライスポイントはサンプル0のところにある。重み値は、具体的なチャンネルまたは相関タイプ(例えば時間領域と位相)が、多数チャンネル全体に対して主要な役割を果たすように選ぶことが可能である。重み値はまた他の信号に対して周期性を強調するような相関機能におけるサンプル点を関数として選択してもよい。簡単であるが、重み付け関数は、チャンネル間では相対的な音の大きさに対する有用な対応である。このような重み付けは無視できるような低い信号の寄与を最小限にすることができる。例えば、トランジエントに対してより大きな重み付けを与えてもよい。スーパー相関の目的は、できるだけ良い共通エンドポイントを見つけるためおのおのの相関の重み付けを統合することである。多数チャンネルにおいては異なる波形であるため、理想の答えはなく、また共通のエンドポイントを見つけるための理想的な方法もない。その代わりとして以下に、一組のスプライスポイントとエンドポイントの位置を見つける方法を説明する。
図5の説明に戻って、ブロック処理決定ステップ218(「ブロック処理」)では、要求される時間圧縮度(縮小度)と比較して、どれだけ時間圧縮(縮小)されたかを比べる。例えば時間圧縮の場合、この決定ステップにより、必要な圧縮度と比べてどれだけの圧縮がなされたかの累積的な追跡を続ける。出力時間圧縮度(縮小度)は、ブロックごとに異なり要求時間圧縮度(縮小度)の近傍で少しずつ異なる(与えられた時間における要求量より大きくなったり小さくなったりすることがある)。時間同時的な(「現在の」)ブロック(時間同時的なオーディオセグメントの入力データブロックのセットで、各チャンネルに1ブロックある)に1つの重複領域のみしか許されない場合は、そのブロックの処理決定ステップでは要求される時間圧縮度(縮小度)と出力時間圧縮度(縮小度)とを比較し、現在の入力データに処理を行うかどうかを決める。この決定は共通の重複領域、もしあれば、現在のブロックにおけるターゲットセグメントの長さを基準になされる。例えば、時間圧縮度(縮小度)として110%が要求され、出力時間圧縮度(縮小度)が要求時間圧縮度(縮小度)を下まわる場合、現在の入力ブロックが処理される。他の場合は、現在の入力ブロックは処理が省略される。時間同時的な入力ブロックのセット中に、もし1以上の共通重複領域が許されるのなら、ブロック処理決定ステップでは、1つの重複領域に対して処理を行うのか、2以上の重複領域に対して処理を行うのか、あるいは、現在のブロックの処理を省略するのかを決める。代案として、処理するか、処理を省略するかを決める他の基準を設けても良い。例えば、現在のブロックの処理を省略するかどうかを、現在蓄積された拡張または圧縮が、要求された程度以上かどうかを基準にする代わりに、現在のブロックに対する処理の結果が、反対側ではエラーとなっていても、要求された程度まで、蓄積された拡張または圧縮を変化させるのかどうかを基準としても良い。
スプライスポイントとエンドポイントの位置を決めブロック処理を行うかどうかの決定の後、各チャンネルのデータブロックは、図5のステップ220(各チャンネルのブロックのクロスフェード)のクロスフェードブロックにより処理される。このステップは各チャンネルのデータブロック、共通スプライスポイント、共通エンドポイント及びクロスフェード情報を受け取る。
クロスフェード処理に続いて、図5の決定ステップ(「ピッチスケール?」)では、ピッチシフティング(スケーリング)を行うべきかを決めるためにチェックを行う。先に論じたとおり、バッファがアンダーフローするかオーバーフローしてしまうので実時間で行うことができない。しかし「再サンプリング」ステップ224(「全データブロックの再サンプリング」)動作があるため、ピッチスケーリングは実時間で可能である。この再サンプリングは異なったレートでサンプリングを読み込む。ディジタル的ない固定出力ブロックによる実施は、再サンプリングにより完成される。このように再サンプリングステップ224では、時間圧縮または拡張された入力信号を再サンプリングし、入力信号と同じ時間展開または継続時間を持つが、スペクトル情報が変化した、ピッチスケーリングをもたらす。実時間実施では、再サンプリングは、DSP実施における計算負荷を軽減するため、サンプルレートコンバータ専用ハードウェアにより実行することもできる。出力サンプリングレートを一定に保持するかまたは、入力サンプルレートと出力サンプルレートを同じに保つことが望ましいときのみ、再サンプルが必要となることに注意すべきである。ディジタルシステムにおいては、一定の入力サンプリングレートまたは同じ入・出力サンプリングレートは普通に必要とされる。しかし対象の出力がアナログ領域に変換されるのならば、出力サンプリングレートは問題ではない。したがって、サンプリングは本発明の必須構成要件ではない。
本発明の特徴であるサイコアコースティックアナリシスとオーディトリーシーンアナリシスの両方を用いた多数チャンネルのタイム又は/及びピッチスケーリング処理の実施例を図17に示す。処理は、入力信号サンプルにより表される1以上のディジタルオーディオチャンネルであり、各チャンネルでの連続したサンプルが4096のサンプルからなるブロックに分割される環境で説明したが、これらの実施形態は必須ではない。原則としてこのオーディオ処理はディジタルでもアナログでもよく、ブロックに分ける必要もない。
オーディオ入力データブロック分けに続いて、各チャンネルの内容は、各々が別のものとして認識されるような、オーディトリーイベントに分割される(「各チャンネルのブロックに対するオーディトリーシーンアナリシスの実施」)(ステップ706)。多数チャンネルの場合は、オーディトリーシーンアナリシス706戸それに付随するステップは、並列に又はチャンネルからチャンネルへと順次に処理される。並列処理は、大きな処理能力を必要とするが、実時間アプリケーションには望ましい。図17の説明はチャンネルは並列に処理されることを仮定している。
N =入力オーディオブロックのサンプル数
M =スペクトルプロファイルの計算に使われる窓枠内のサンプル数
P =スペクトル計算の重複サンプル数
Q =計算されたスペクトル窓及び領域数
原則として、どんな整数を上記変数として使ってもよい。しかし、スペクトルプロファイルの計算に標準的なFFTを使うことができるように、Mは2の累乗にしておけば、計算はもっと効率的になる。加えて、N,M,及びPをQが整数になるように選定すれば、N個のサンプルブロックの終端でオーディオのアンダーランニング(under-running)やオーバーランニング(over-running)を避けることができるだろう。オーディトリーシーンアナリシス処理における実際の実施例では、上掲の変数は以下のように定められる。
N =4096サンプル(又は、44.1kHzで93msec)
M =512サンプル(又は、44.1kHzで12msec)
P =0サンプル
Q =8ブロック
上掲の変数は実験により求められたもので、おおむね、タイムスケーリングとピッチシフティングを目的としてオーディトリーイベントの位置と継続時間の十分な精度を満たすとみなされることが分かった。しかし、Pの値を256サンプル(50%重複)にすることは、見つけにくいイベントを特定するのに有益であることが分かっている。窓関数に起因するスペクトルアーティファクトを最小限にするために多くの異なるタイプの窓関数が使われるが、スペクトルプロファイルの計算に使われる窓関数は、Mポイント・ハニング、カイザー・ベッセルその他の適当なもので、非方形の窓関数が望ましい。広範囲にわたる試験の結果、広い範囲のオーディオ素材にわたって優れた成果をあげたことから、上記値とハニング窓を選択した。非方形の窓は、低周波の内容が支配的なオーディオ信号の処理に望ましい。方形窓は、イベントの不適切な検出の原因になるスペクトルアーティファクトを作る。
再度図17を参照すると、入力データブロック化とオーディトリーシーンアナリシスに続いて、サイコアコースティックアナリシスが各オーディトリーイベントの入力データブロックにおいて実行される(「各ブロックの各イベントに対するサイコアコースティックアナリシスの実施」)(ステップ708)。原則として、サイコアコースティックな特性は、オーディトリーイベント内でのオーディオが一定であることが妥当であると認識されるため、オーディオチャンネルにおいてオーディトリーイベントの長さ全体又は時間全体にわたって、実質的な一様性を維持する。このように、オーディオ情報は、ここで公開された実際の例では512個のサンプルを見るオーディトリーイベント検出処理における場合に比べて、ここで公開された実際の例では64個のサンプルブロックを見るサイコアコースティックアナリシス処理における場合にはさらに精密に検査するとしても、サイコアコースティックアナリシス処理は、原則的に、オーディトリーイベントの全体にわたって1つの支配的なサイコアコースティックな状況を見つけ、しかるべくレッテルを貼るのである。図17の処理の一環として実行されたサイコアコースティックアナリシスは、すべての入力ブロック全体というより入力ブロック内での各オーディトリーイベントに主として適用される点で、図5の処理の一環として実行されるものと異なる。一般に、オーディトリーイベントのサイコアコースティックアナリシスは2つの重要な情報を提供する。第1は、入力信号のイベントのどちらが、もし実行した場合、可聴なアーティファクトを発生しやすいかを特定し、第2は、入力信号のどの部分が、実行された処理を有利にマスクするのに使うことができるかを特定する。図21は、上述したサイコアコースティックアナリシス処理に用いられる図6の処理と同様の処理がおこなわれる。サイコアコースティックアナリシス処理は、概略4つの処理サブステップからなる。前述のように、各サイコアコースティックな処理のサブステップは、スペクトルプロファイルサブブロックの8分の1の大きさ(又は、入力ブロックの64分の1の大きさ)のサイコアコースティックなサブブロックを採用する。このように、この例では、図22に示すように、サイコアコースティックなサブブロックは約1.5msec(又は、44.1kHzにおいて64サンプル)である。サイコアコースティックなサブブロックの実際の大きさは、無理に1.5msecにされるものでもなく違った値としてもよいが、この大きさは、実時間処理からの要求(サブブロックのサイズを大きくするにつれて、サイコアコースティックな処理に必要な能力は小さくて済む)とトランジエント位置の分解能(サブブロックを小さくすれば、トランジエントの位置についての情報が増える)とのトレードオフを生じるので、現実的な実施に適するように選定される。原則として、サイコアコースティックなサブブロックのサイズは、すべてのタイプのサイコアコースティックアナリシスに対して同じでなくてもよく、実施対象に応じて現実的に具体化することが望ましい。
図21を参照して、第1のサブステップ708−1(「トランジエント検出/マスキング分析の実施」)は、各オーディオチャンネルの入力ブロックにおける各オーディトリーイベントセグメントを分析し、このセグメントにトランジエントを含んでいるかどうかを決定する。このサブステップは、ASA処理のスペクトル変化の局面で、本来的にトランジエントを考慮に入れ、オーディトリーイベントとしてトランジエントを含むオーディオセグメントを特定したとしても、必要である。なぜなら、ここで説明するスペクトルを基準としたASAは、オーディトリーイベントがトランジエントを含むかどうかでオーディトリーイベントを特定するのではないからである。得られた時間的トランジエント情報は、分析結果をマスクし、あるいは、暫定的な又は共通のスプライスポイントの位置を決める手助けをする。上述のように、トランジエントは時間的マスキング(トランジエントの発生前後で、オーディオ情報を隠すこと)をもたらすことはよく知られている。特定のブロックにおけるオーディトリーイベントセグメントは、トランジエントに、そのトランジエントが全長さを又はそのイベントの全時間的期間を占有しているかどうかを示す目印をつけておくことが望ましい。サイコアコースティックアナリシスステップにおけるトランジエント検出処理は、オーディトリーイベントを構成する入力ブロックのセグメントだけを分析する点を除いて、本質的に上述のトランジエント検出処理と同じである。従って、トランジエント検出処理の詳細については、上述の図8における処理フローチャートを参照してもよい。
図21を再度参照すると、サイコアコースティックアナリシス処理の第2のステップ780−2、すなわち「可聴閾値分析の実施」サブステップは、各オーディオチャンネルの入力ブロックのオーディトリーイベントを分析して、各セグメントが、可聴閾値以下と考えてよいほど十分小さい信号強度であるかどうかを決定する。先に説明したように、オーディトリーイベントは、その境界がサブブロックのサイズのスペクトルプロファイルの細かさに応じて変化する可能性があるのは当然のこととして(すなわち、オーディオはイベント境界での細かさ以外にもその特性が変化する)、オーディトリーイベントの長さ又は時間的期間全部にわたって妥当な程度に一定であると認識する傾向にある。サイコアコースティックアナリシスステップにおける可聴閾値分析処理は、先の説明でも参照することが出るが、オーディトリーイベントを構成する入力ブロックのセグメントだけを分析する点を除いて、上述の可聴閾値分析処理と本質的に同じである(例えば、図6のサブステップ206−2の説明を参照のこと)。そのようなオーディトリーイベントをタイムスケーリング及びピッチシフティングしたために現れたアーティファクトは、そのような領域ではほとんど可聴ではないので、オーディトリーイベントが対象となる。
第3のサブステップ708−3(図21)(「高周波分析の実施」)は、各オーディオチャンネルの入力ブロックのオーディトリーイベントを分析して、各セグメントが、高周波オーディオ内容を十分含んでいるかどうかを決定する。静寂な状態における可聴閾値は約10−12kHzにまで急速に広がるので、また、聴覚は、低周波が支配的な波形の途切れに対してより、高周波が支配的な波形の途切れに対してのほうが感度が鈍くなるので、高周波セグメントが対象となる。オーディオ信号が、大部分で高周波エネルギーを含んでいるかどうかを決定するために有効な方法はたくさんあるが、図6のサブステップ206−3に関連して説明した上述の方法は、よい検出結果をもたらし、計算負荷を最小限にし、オーディトリーイベントを構成するセグメントの分析に適用することが可能となる。
サイコアコースティックアナリシス処理の第4のステップ780−4(図21)、すなわち「オーディオブロック全般レベル分析の実施」サブステップは、各オーディオチャンネルの入力ブロックの各オーディトリーイベントセグメントを分析して、イベントの信号強度の大きさの計算をおこなう。かかる情報は、処理過程で悪用される上述のサイコアコースティックな特性を、そのイベントにはまったく含まないかどうかを分析するのに用いられる。オーケストラ音楽の単一チャンネルに用いた簡単な例を図23に示す。新しい音の調子として発生したスペクトルの変化は、各々2048サンプル目と2560サンプル目の新しいイベント2と3の引き金の役割を果たす。図23に示されたこのオーケストラ音楽は、可聴閾値以下の、又は高周波の内容のどんなトランジエントも含んでいない。しかし、最初のオーディトリーイベントは、ブロックにおける2番目と3番目のイベントより信号が小さい。データ拡張や圧縮処理のためには、音の大きなそれに続くイベントをよりこのような静かなイベントを選んだほうが、処理用の可聴なアーティファクトを最小限にすることができると考えられる。
共通スプライスポイントの設定710(図17)
図17に示すとおり、オーディトリーシーンアナリシスと各ブロックのオーディトリーイベントを構成する各セグメントのサイコアコースティックアナリシスに続いて、次のステップ710(「結合されたオーディトリーイベントの決定と、共通スプライスポイントの設定」)で処理されるのは、すべてのチャンネルにまたがる同時的なブロックで結合されたオーディトリーイベントの境界を定めることであり(結合されたオーディトリーイベントについては図20と関連してさらに以下に記述する)、同時的なブロックの各セットにおける1以上の結合されたオーディトリーイベントセグメントに対して、すべてのチャンネルにまたがる同時的なブロックにおける共通スプライスポイントを決めることであり、及び、結合されたオーディトリーイベントセグメント内のオーディトリーイベントのサイコアコースティックな質の順位を定めることである。単一のチャンネルが処理されるイベントにおいて、チャンネル内のオーディトリーイベントは、本説明における多数チャンネルの結合されたオーディトリーイベントの処理と同じ方法で扱われる。
///
///
最大処理長さ =
イベント境界 − クロスフェード長さ − 処理スプライスポイント位置
582 = 2560 − 221 − 1757
ステップ710の出力は、各結合されたオーディトリーイベントの境界、各結合されたオーディトリーイベントのチャンネルを横断する同時的なデータブロックの共通スプライスポイント、結合されたオーディトリーイベントのサイコアコースティックな質の順位付け、クロスフェードパラメータの情報、及び各結合されたオーディトリーイベントのチャンネルを横断的に処理する最大処理長さである。
このように、ステップ712(「複雑性に基づく処理の省略?」)では、サイコアコースティックな質の順位が低い(高い複雑性を示す)ときは、省略フラグが設定される。以下に説明するようなステップ714での相関計算処理の後ではなく、その前に、このような複雑性に基づく決定をおこなうことにより、無意味な相関計算処理をおこなわずに済む。以下に説明するようなステップ718で、結合された特別なオーディトリーイベントセグメントの間に、いろいろなチャンネルにわたってさらに処理がなされるべきかの決定をおこなうことに注意しなければならない。ステップ718では、現在処理中のものの必要長さに関連して、結合されたオーディトリーイベントのターゲットセグメントの長さを考慮に入れる。ターゲットセグメントの長さは、これから説明する相関計算ステップ714により共通エンドポイントが定まるまで決まらない。
ターゲットセグメントを決定するために、各共通スプライスポイントに対して、適切な共通エンドポイントが必要である。現行の結合されたオーディトリーイベントセグメントへの入力が処理されるべきであると決定されると、図17に示すように、時間領域データの相関計算処理(ステップ714−1と714−2)と、入力信号の位相情報の相関計算処理(ステップ714−3と714−4)とからなる2つのタイプの相関計算がおこなわれる(ステップ714)。入力データの位相情報と時間領域情報の結合を用いることによって、時間領域情報のみを用いるより、スピーチから複雑な音楽に至るまでの信号レンジで質の高いタイムスケーリング結果をもたらす。ステップ714における処理の詳細は、サブステップ714−1,2,3及び4と多数相関処理ステップ716を含め、先にステップ214(とそのサブステップ214−1,2,3及び4)及び216に関連して説明したものと、ステップ714と716では処理はサイコアコースティックに特定された領域よりむしろ、結合されたオーディトリーイベントセグメントによるものである点を除いて、本質的に同じである。
前述の通り、本発明は、スプライスポイントの位置とそれに付随するエンドポイントの位置を決定する、別の方法も考えている。前述の処理では、スプライスポイントをどこかに任意に選定し、その後平均周期(本質的に自由度1)に基づいてエンドポイントを選定する。後述する他の方法として、代わりに、スプライスポイントによる可聴アーティファクトを最小限にするような最適なクロスフェードを目指して、理想的なスプライスポイント/エンドポイントの組合せを選択する(自由度2)。
図17の説明に戻って、次のステップは、イベントブロック処理決定ステップ718(「結合イベントの処理?」)である。タイムスケーリング処理は、時間領域又は時間領域と位相情報を利用し、この情報をオーディオ信号データの処理に使うものだから、タイムスケーリング係数は時間に対して直線的ではなく、要求された出力タイムスケーリング係数の周辺で変動する。イベント処理の決定において、他の機能の間に、要求された入力タイムスケーリング係数に対してどれだけタイムスケーリングされたかを比較する。もし、処理により、結合されたオーディトリーイベントセグメントの時間が要求されたタイムスケーリング係数を超えるにいたる場合は、この結合されたオーディトリーイベントセグメントは処理が省略される(すなわち処理されない)。しかし、もしタイムスケーリングが要求される時間を下回る時間で実行された場合は、結合されたオーディトリーイベントセグメントが処理される。
336サンプル/4096サンプル =8.86%
を提供する。もし、この次のオーディトリーイベントセグメント又は結合オーディトリーイベントセグメントの処理に伴う363個のサンプルの結合における処理が、時間圧縮処理に要求される量以上である場合は、最初のオーディトリーイベントセグメント又は結合オーディトリーイベントセグメントの処理で十分であるとし、ブロックの残りのオーディトリーイベントセグメント又は結合オーディトリーイベントセグメントは処理が省略される。しかし、もし最初のオーディトリーイベントで処理された363個のサンプルが要求の時間圧縮値に適合しない場合は、2番目も3番目も処理対象と考えられる。
スプライスポイント及びスプライスポイントの決定に続いて、ステップ712又はステップ718で除去されなかった各結合オーディトリーイベントは、「スプライス及びクロスフェード処理」ステップ720(図17)により処理される。このステップは各イベント又は、結合イベント、データセグメント、スプライスポイント位置、処理エンドポイント及びクロスフェードパラメータを受け取る。ステップ720は、オーディトリーイベント又は結合オーディトリーイベントにより動作し、かつ、クロスフェードの長さが長くなるかもしれない点を除いて、上述した図5の処理におけるステップ218と原則として同様に動作する。
結合されたオーディトリーイベントのスプライス/クロスフェード処理に続いて、決定ステップ722(「ピッチスケール?」)により、どのピッチシフトを実行するかを決定する。先に論じたとおり、アンドーフローやオーバーフローを防止するため、タイムスケーリングは実時間ではできない。ピッチスケーリングは再サンプリングステップ724(「全データ再サンプリング」)があるので実時間で実行することができる。再サンプリングステップでは、タイムスケーリングされた入力信号を再サンプリングして、その結果入力信号と同じ時間展開ではあるがスペクトル情報が変化するピッチスケールされた信号となる。実時間処理のため、再サンプリングは、計算負荷を軽減するため専用ハードウエアのサンプルレートコンバータを用いて実行しても良い。
Claims (65)
- オーディオ信号のタイムスケーリング及び/又はピッチシフティングを非可聴に又は最小限の可聴性で処理するようなオーディオ信号領域を特定するため多数のサイコアコースティックな基準を用いて上記オーディオ信号を分析し、
上記領域内でオーディオ信号のタイムスケーリング及び/又はピッチシフティング処理を行うことを含む、オーディオ信号のタイムスケーリング及び/又はピッチシフティングの方法であって、
前記タイムスケーリング及び/又はピッチシフティングの処理は、
前記オーディオ信号領域にスプライスポイントを選定し、当該スプライスポイントを導くオーディオ信号のリーディングセグメントを決定し、
前記スプライスポイントから間隔を置いてエンドポイントを選定し、当該エンドポイントの後に続くオーディオ信号のトレイリングセグメント、及び当該スプライスポイントとエンドポイントの間にターゲットセグメントを決定し、
前記リーディングセグメントとトレイリングセグメントとを前記スプライスポイントで結合し、当該エンドポイントが前記スプライスポイントより大きなサンプル数を有する場合は当該ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少し、又は、当該エンドポイントが前記スプライスポイントより小さなサンプル数を有する場合は当該ターゲットセグメントを繰返すことでオーディオ信号サンプルの数を増大し、
結合されたリーディングセグメントとトレイリングセグメントを要求されたタイムスケーリング及び/又はピッチシフティングを生じるようなレートで読み出すことを含む、方法。 - 結合されたリーディングセグメントとトレイリングセグメントが、
オリジナルの期間と同じ期間が当該オーディオ信号のピッチシフティングをもたらすような、
ターゲットセグメントを削除する場合において、サンプル数の減少による相対的な変化と同じ比率で減少した期間がオーディオ信号の時間圧縮をもたらすような、
ターゲットセグメントを繰返す場合において、サンプル数の増加による相対的な変化と同じ比率で増加した期間がオーディオ信号の時間拡張をもたらすような、
サンプル数の減少による相対的な変化とは異なる比率で減少した期間がオーディオ信号の時間圧縮とピッチシフティングをもたらすような、あるいは、
サンプル数の増加による相対的な変化とは異なる比率で増加した期間がオーディオ信号の時間拡張とピッチシフティングをもたらすようなレートで読み出だされる、請求項1に記載の方法。 - 当該エンドポイントもまた前記領域内で選定されるような請求項1に記載の方法。
- 多数のサイコアコースティックな基準を用いた前記オーディオ信号の分析には、前記オーディオ信号を分析し、当該オーディオが一群のサイコアコースティックな基準の少なくとも1つを満足するようなオーディオ信号の領域を決定することを含む請求項1に記載の方法。
- 前記サイコアコースティックな基準には、
特定された前記オーディオ信号領域はトランジエントの結果により実質的にプレマスク又はポストマスクされていること、
特定された前記オーディオ信号領域は実質的に非可聴であること、
特定された前記オーディオ信号領域は全般的に高周波であること、及び
特定された前記オーディオ信号領域は、当該領域に先行する及び/又は続くセグメントの1以上の部分がより音が大きいオーディオ信号セグメントのより静かな部分であること、
の少なくとも1つの基準を含む請求項4に記載の方法。 - 前記リーディングセグメントとトレイリングセグメントとをスプライスポイントで結合する前記ステップは、当該リーディングセグメントと当該トレイリングセグメントをクロスフェードすることを含む請求項1に記載の方法。
- ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合は、前記エンドポイントは、スプライスポイントに続くオーディオのセグメントを自己相関計算することで選択される、請求項1に記載の方法。
- ターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合は、前記エンドポイントは、スプライスポイントに先行するオーディオのセグメント及び後に続くオーディオのセグメントを自己相関計算することで選択される、請求項1に記載の方法。
- ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合又はターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合は、スプライスポイントの位置及びエンドポイントの位置は、
連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域に対して、連続した試験的なスプライスポイントの位置の周辺のオーディオサンプルの窓について相関計算し、そして、
最強の相関となる試験的なスプライスポイントの位置を決定し、この試験的なスプライスポイントの位置をスプライスポイントに指定し、最強の相関となる位置に実質的なエンドポイント位置を設定する、請求項1に記載の方法。 - 前記窓は方形窓である請求項9に記載の方法。
- 前記窓は実質的にクロスフェードの幅を持つ請求項10に記載の方法。
- 前記連続した試験的なスプライスポイントの位置は、2以上のオーディオサンプルにより間隔が保たれている請求項9に記載の方法。
- 前記連続した試験的なスプライスポイントの位置は、実質的に前記窓の幅により間隔が保たれている請求項12に記載の方法。
- 前記窓は実質的にクロスフェードの幅を持っている請求項13に記載の方法。
- ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合に、連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域は、各試験的なスプライスポイント位置に続き、スプライスポイントがエンドポイントに先行する請求項9に記載の方法。
- ターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合に、連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域は、各試験的なスプライスポイント位置に続き、スプライスポイントとエンドポイントの地位が入れ替えられ、エンドポイントがスプライスポイントに先行する請求項9に記載の方法。
- ターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合に、連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域は、各試験的なスプライスポイント位置に先行し、エンドポイントがスプライスポイントに先行する請求項9に記載の方法。
- ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合又はターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合において、スプライスポイントの位置とエンドポイントの位置は、
連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域に対して、連続した試験的なスプライスポイントの位置の周辺のオーディオサンプルの窓について相関計算し、前記オーディオサンプルのすべてを係数Mで縮小し、
最強の相関となる試験的なスプライスポイントの位置を決定し、この試験的なスプライスポイントの位置を縮小されたスプライスポイントに指定し、
第2の連続した各試験的なスプライスポイントの位置に隣り合う縮小されていないオーディオサンプルの領域に対して、前記縮小されたスプライスポイントのM個のサンプル内で、第2の連続した試験的なスプライスポイントの位置の周辺の縮小されていないオーディオサンプルの窓について相関計算し、
最強の相関となる試験的なスプライスポイントの位置を前記第2の連続部に決定し、この試験的なスプライスポイントの位置をスプライスポイントに指定し、最高の相関となる位置に実質的にエンドポイントの位置を設定する
ことにより、選定される請求項1に記載の方法。 - オーディオ信号のタイムスケーリング及び/又はピッチシフティングを非可聴に又は最小限の可聴性で処理するようなオーディオ信号領域を特定するため少なくとも1つのサイコアコースティックな基準を用いて前記オーディオ信号の各々を分析し、
オーディオ信号の上記チャンネルの少なくとも1つの特定された領域内にあるタイムセグメントの期間に前記多数チャンネルのすべてのオーディオ信号のタイムスケーリング及び/又はピッチシフティング処理を行うことを含む、多数チャンネルのオーディオ信号のタイムスケーリング及び/又はピッチシフティングの方法であって、
前記タイムスケーリング及び/又はピッチシフティング処理は、
オーディオ信号のチャンネル間で共通のスプライスポイントを選択し、そこで、多数のオーディオ信号のチャンネルの各々にある前記共通のスプライスポイントからの結果として生まれるスプライスポイントは、お互いに一列に並べられ、前記共通のスプライスポイントが前記オーディオ信号のチャンネルの少なくとも1つの特定された領域内にあり、
スプライスポイントで始まる各チャンネルのオーディオ信号の一部分を削除するか、又は、スプライスポイントで終わる各チャンネルのオーディオ信号の一部分を繰返すかし、そして、
この結果生じた多数チャンネルのオーディオ信号を、要求されたタイムスケーリング及び/又はピッチシフティングが多数チャンネルのオーディオに対して生じるようなレートで読み出すことを含む、方法。 - さらに、特定された領域の共通する重複部分があるタイムセグメントを特定し、前記共通のスプライスポイントを、前記特定された領域の共通する重複部分内にオーディオ信号の間で選択する、請求項19に記載の方法。
- 前記共通のスプライスポイントの選択は、少なくとも1つのサイコアコースティックな基準を用いて、クロスチャンネル効果を考慮に入れて前記スプライスポイントの位置を選択する、請求項19に記載の方法。
- オーディオ信号のタイムスケーリング及び/又はピッチシフティングを非可聴に又は最小限の可聴性で処理するようなオーディオ信号領域を特定するため少なくとも1つのサイコアコースティックな基準を用いて前記オーディオ信号の各々を分析し、
オーディオ信号の上記チャンネルの少なくとも1つの特定された領域内にあるタイムセグメントの期間に前記多数チャンネルのすべてのオーディオ信号のタイムスケーリング及び/又はピッチシフティング処理を行うことを含む、多数チャンネルのオーディオ信号のタイムスケーリング及び/又はピッチシフティングの方法であって、
前記タイムスケーリング及び/又はピッチシフティング処理は、
オーディオ信号の各チャンネル間の特定された領域に共通のスプライスポイントを選択し、そこで、多数のオーディオ信号のチャンネルの各々にある共通の前記スプライスポイントからの結果として生まれるスプライスポイントは、お互いに一列に並べられ、各スプライスポイントが当該スプライスポイントを導くオーディオ信号のリーディングセグメントを決定し、
スプライスポイントから間隔をあけて配置された前記特定された領域に共通のエンドポイントを選択し、多数のオーディオ信号のチャンネルのエンドポイントは、お互いに一列に並べられ、エンドポイントの後ろに続くオーディオ信号のトレイリングセグメントと、当該スプライスポイントとエンドポイントの間にターゲットセグメントを決定し、
前記リーディングセグメントとトレイリングセグメントとを前記スプライスポイントで結合し、当該エンドポイントが前記スプライスポイントより大きなサンプル数を有する場合は当該ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少し、又は、当該エンドポイントが前記スプライスポイントより小さなサンプル数を有する場合は当該ターゲットセグメントを繰返すことでオーディオ信号サンプルの数を増大し、
オーディオ信号の各チャンネルで結合されたリーディングセグメントとトレイリングセグメントを、多数チャンネルのオーディオ信号に要求されたタイムスケーリング及び/又はピッチシフティングを生じるようなレートで読み出すことを含む、方法。 - 結合されたリーディングセグメントとトレイリングセグメントは、
オリジナルの期間と同じ期間が当該オーディオ信号のピッチシフティングをもたらすような、
ターゲットセグメントを削除する場合において、サンプル数の減少による相対的な変化と同じ比率で減少した期間がオーディオ信号の時間圧縮をもたらすような、
ターゲットセグメントを繰返す場合において、サンプル数の増加による相対的な変化と同じ比率で増加した期間がオーディオ信号の時間拡張をもたらすような、
サンプル数の減少による相対的な変化とは異なる比率で減少した期間がオーディオ信号の時間圧縮とピッチシフティングをもたらすような、あるいは、
サンプル数の増加による相対的な変化とは異なる比率で増加した期間がオーディオ信号の時間拡張とピッチシフティングをもたらすようなレートで読み出だされる、請求項19又は請求項22に記載の方法。 - さらに、1以上の特定された領域に暫定的なスプライスポイントを配置し、前記共通のスプライスポイントの選択により、チャンネルの1つにある暫定的なスプライスポイントの位置を共通のスプライスポイント位置であると選定し、共通のスプライスポイント位置として選定された暫定的なスプライスポイントの位置は他の1以上の暫定的なスプライスポイントの位置と同時には起こることのないことを含む、請求項22に記載の方法。
- さらに、前記共通のスプライスポイントの選択は、特定された領域における共通の重複部分内に共通スプライスポイントを選択する、特定された領域における前記共通の重複部分を特定することを含む請求項22に記載の方法。
- 前記共通のスプライスポイントの選択は、少なくとも1つのサイコアコースティックな基準を用いて、特定された領域における共通の重複部分内に前記共通スプライスポイントを選択する、請求項25に記載の方法。
- 前記共通のスプライスポイントの選択は、少なくとも1つのサイコアコースティックな基準を用い、またクロスチャンネル効果も考慮に入れて、特定された領域における共通の重複部分に共通スプライスポイントを選択する、請求項25に記載の方法。
- 前記共通のスプライスポイントの選択は、少なくとも1つのサイコアコースティックな基準を用いて、前記共通スプライスポイントを選択する、請求項22に記載の方法。
- 前記共通のスプライスポイントの選択は、少なくとも1つのサイコアコースティックな基準を用い、またクロスチャンネル効果も考慮に入れて、共通スプライスポイントを選択する、請求項28に記載の方法。
- エンドポイントは、各オーディオ信号内の前記領域内にも選択される請求項22に記載の方法。
- 前記、オーディオ信号の各チャンネル内に、非可聴に又は最小限の可聴性で、オーディオ信号のある部分の削除又はオーディオ信号のある部分の繰返しをおこなうような領域を特定するため、サイコアコースティックな基準を用いて前記オーディオ信号の各々のチャンネルを分析することには、オーディオ信号の各チャンネル内に、当該オーディオが少なくとも一群のサイコアコースティックな基準の少なくとも1つを満足するような領域を特定するために、前記オーディオ信号のチャンネルを分析することが含まれる、請求項22に記載に記載の方法。
- 前記サイコアコースティックな基準には、
特定された前記オーディオ信号領域はトランジエントの結果により実質的にプレマスク又はポストマスクされていること、
特定された前記オーディオ信号領域は実質的に非可聴であること、
特定された前記オーディオ信号領域は全般的に高周波であること、及び
特定された前記オーディオ信号領域は、当該領域に先行する及び/又は続くセグメントの1以上の部分がより音が大きいオーディオ信号セグメントのより静かな部分であること、
の少なくとも1つの基準を含む請求項27又は請求項31に記載の方法。 - 前記オーディオ信号をオーディトリーイベントに分割し、
オーディトリーイベント内でタイムスケーリング及び/又はピッチシフティング処理を行うことを含む、オーディオ信号のタイムスケーリング及び/又はピッチシフティング方法であって、
前記タイムスケーリング及び/又はピッチシフティングの処理は、
前記オーディオ信号領域にスプライスポイントを選定し、当該スプライスポイントを導くオーディオ信号のリーディングセグメントを決定し、
前記スプライスポイントから間隔を置いてエンドポイントを選定し、当該エンドポイントの後に続くオーディオ信号のトレイリングセグメント、及び当該スプライスポイントとエンドポイントの間にターゲットセグメントを決定し、
前記リーディングセグメントとトレイリングセグメントとを前記スプライスポイントで結合し、当該エンドポイントが前記スプライスポイントより大きなサンプル数を有する場合は当該ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少し、又は、当該エンドポイントが前記スプライスポイントより小さなサンプル数を有する場合は当該ターゲットセグメントを繰返すことでオーディオ信号サンプルの数を増大し、
結合されたリーディングセグメントとトレイリングセグメントを要求されたタイムスケーリング及び/又はピッチシフティングを生じるようなレートで読み出すことを含む、方法。 - 結合されたリーディングセグメントとトレイリングセグメントが、
オリジナルの期間と同じ期間が当該オーディオ信号のピッチシフティングをもたらすような、
ターゲットセグメントを削除する場合において、サンプル数の減少による相対的な変化と同じ比率で減少した期間がオーディオ信号の時間圧縮をもたらすような、
ターゲットセグメントを繰返す場合において、サンプル数の増加による相対的な変化と同じ比率で増加した期間がオーディオ信号の時間拡張をもたらすような、
サンプル数の減少による相対的な変化とは異なる比率で減少した期間がオーディオ信号の時間圧縮とピッチシフティングをもたらすような、あるいは、
サンプル数の増加による相対的な変化とは異なる比率で増加した期間がオーディオ信号の時間拡張とピッチシフティングをもたらすようなレートで読み出だされる、請求項33に記載の方法。 - リーディングセグメントとトレイリングセグメントとをスプライスポイントで結合する前記ステップは、当該リーディングセグメントと当該トレイリングセグメントをクロスフェードすることを含む請求項33に記載の方法。
- ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合は、前記エンドポイントは、スプライスポイントに続くオーディオのセグメントを自己相関計算することで選択される、請求項33に記載の方法。
- ターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合は、前記エンドポイントは、スプライスポイントに先行するオーディオのセグメント及び後に続くオーディオのセグメントを自己相関計算することで選択される、請求項33に記載の方法。
- ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合又はターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合は、スプライスポイントの位置及びエンドポイントの位置は、
連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域に対して、連続した試験的なスプライスポイントの位置の周辺のオーディオサンプルの窓について相関計算し、そして、
最強の相関となる試験的なスプライスポイントの位置を決定し、この試験的なスプライスポイントの位置をスプライスポイントに指定し、最強の相関となる位置に実質的なエンドポイント位置を設定する、請求項33に記載の方法。 - 前記窓は方形窓である請求項38に記載の方法。
- 前記窓は実質的にクロスフェードの幅を持つ請求項39に記載の方法。
- 前記連続した試験的なスプライスポイントの位置は、2以上のオーディオサンプルにより間隔が保たれている請求項38に記載の方法。
- 前記連続した試験的なスプライスポイントの位置は、実質的に前記窓の幅により間隔が保たれている請求項41に記載の方法。
- 前記窓は実質的にクロスフェードの幅を持っている請求項42に記載の方法。
- ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合に、連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域は、各試験的なスプライスポイント位置に続き、スプライスポイントがエンドポイントに先行する請求項38に記載の方法。
- ターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合に、連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域は、各試験的なスプライスポイント位置に続き、スプライスポイントとエンドポイントの地位が入れ替えられ、エンドポイントがスプライスポイントに先行する請求項38に記載の方法。
- ターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合に、連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域は、各試験的なスプライスポイント位置に先行し、エンドポイントがスプライスポイントに先行する請求項38に記載の方法。
- ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合又はターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合において、スプライスポイントの位置とエンドポイントの位置は、
連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域に対して、連続した試験的なスプライスポイントの位置の周辺のオーディオサンプルの窓について相関計算し、前記オーディオサンプルのすべてを係数Mで縮小し、
最強の相関となる試験的なスプライスポイントの位置を決定し、この試験的なスプライスポイントの位置を縮小されたスプライスポイントに指定し、
第2の連続した各試験的なスプライスポイントの位置に隣り合う縮小されていないオーディオサンプルの領域に対して、前記縮小されたスプライスポイントのM個のサンプル内で、第2の連続した試験的なスプライスポイントの位置の周辺の縮小されていないオーディオサンプルの窓について相関計算し、
最強の相関となる試験的なスプライスポイントの位置を前記第2の連続部に決定し、この試験的なスプライスポイントの位置をスプライスポイントに指定し、最高の相関となる位置に実質的にエンドポイントの位置を設定する
ことにより、選定される請求項33に記載の方法。 - 各チャンネル内のオーディオ信号をオーディトリーイベントに分割し、
オーディオ信号のいずれかのチャンネルでオーディトリーイベントの境界が発生したとき、各々が境界を持つような結合されたオーディトリーイベントを決定し、そして、
結合されたオーディトリーイベント内で前記オーディオ信号チャンネルにタイムスケーリング及び/又はピッチシフティング処理を、各々のチャンネルのオーディトリーイベント又はオーディトリーイベントの一部で行うことを含む、複数個のオーディオ信号チャンネルのタイムスケーリング及び/又はピッチシフティングの方法であって、
前記タイムスケーリング及び/又はピッチシフティング処理は、
オーディオ信号の各チャンネル間の結合されたオーディトリーイベントに共通のスプライスポイントを選択し、そこで、多数のオーディオ信号のチャンネルの各々にある共通の前記スプライスポイントからの結果として生まれるスプライスポイントは、実質的にお互いに一列に並べられ、各スプライスポイントが当該スプライスポイントを導くオーディオ信号のリーディングセグメントを決定し、
前記結合されたオーディトリーイベント内に前記共通のエンドポイントを選択して前記共通のスプライスポイントから間隔をあけて配置し、多数のオーディオ信号のチャンネルの各々にある前記共通のエンドポイントは、実質的にお互いに一列に並べられ、エンドポイントの後ろに続くオーディオ信号のトレイリングセグメントと、当該スプライスポイントとエンドポイントの間にターゲットセグメントを決定し、
前記リーディングセグメントとトレイリングセグメントとを前記スプライスポイントで結合し、当該エンドポイントが前記スプライスポイントより大きなサンプル数を有する場合は当該ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少し、又は、当該エンドポイントが前記スプライスポイントより小さなサンプル数を有する場合は当該ターゲットセグメントを繰返すことでオーディオ信号サンプルの数を増大し、
オーディオ信号の各チャンネルで結合されたリーディングセグメントとトレイリングセグメントを、多数チャンネルのオーディオ信号に要求されたタイムスケーリング及び/又はピッチシフティングを生じるようなレートで読み出すことを含む、方法。 - 結合されたリーディングセグメントとトレイリングセグメントが、
オリジナルの期間と同じ期間が当該オーディオ信号のピッチシフティングをもたらすような、
ターゲットセグメントを削除する場合において、サンプル数の減少による相対的な変化と同じ比率で減少した期間がオーディオ信号の時間圧縮をもたらすような、
ターゲットセグメントを繰返す場合において、サンプル数の増加による相対的な変化と同じ比率で増加した期間がオーディオ信号の時間拡張をもたらすような、
サンプル数の減少による相対的な変化とは異なる比率で減少した期間がオーディオ信号の時間圧縮とピッチシフティングをもたらすような、あるいは、
サンプル数の増加による相対的な変化とは異なる比率で増加した期間がオーディオ信号の時間拡張とピッチシフティングをもたらすようなレートで読み出だされる、請求項48に記載の方法。 - 各チャンネル内のオーディオ信号をオーディトリーイベントに分割し、
オーディオ信号のタイムスケーリング及び/又はピッチシフティングの処理が非可聴に又は最小限の可聴性で処理されるようなオーディトリーイベントを特定するためサイコアコースティックな基準を用いて前記オーディトリーイベントを分析し、
オーディオ信号のタイムスケーリング及び/又はピッチシフティングの処理が非可聴に又は最小限の可聴性で処理されるようなものとして特定されたオーディトリーイベント内でタイムスケーリング及び/又はピッチシフティング処理を行うことを含む、オーディオ信号のタイムスケーリング及び/又はピッチシフティングの方法であって、
前記タイムスケーリング及び/又はピッチシフティングの処理は、
前記オーディトリーイベント内にスプライスポイントを選定し、当該スプライスポイントを導くオーディオ信号のリーディングセグメントを決定し、
前記スプライスポイントから間隔を置いて前記オーディトリーイベント内にエンドポイントを選定し、当該エンドポイントの後に続くオーディオ信号のトレイリングセグメントと、当該スプライスポイントとエンドポイントの間にターゲットセグメントを決定し、
前記リーディングセグメントとトレイリングセグメントとを前記スプライスポイントで結合し、当該エンドポイントが前記スプライスポイントより大きなサンプル数を有する場合は当該ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少し、又は、当該エンドポイントが前記スプライスポイントより小さなサンプル数を有する場合は当該ターゲットセグメントを繰返すことでオーディオ信号サンプルの数を増大し、
結合されたリーディングセグメントとトレイリングセグメントを要求されたタイムスケーリング及び/又はピッチシフティングを生じるようなレートで読み出すことを含む、方法。 - 結合されたリーディングセグメントとトレイリングセグメントが、
オリジナルの期間と同じ期間が当該オーディオ信号のピッチシフティングをもたらすような、
ターゲットセグメントを削除する場合において、サンプル数の減少による相対的な変化と同じ比率で減少した期間がオーディオ信号の時間圧縮をもたらすような、
ターゲットセグメントを繰返す場合において、サンプル数の増加による相対的な変化と同じ比率で増加した期間がオーディオ信号の時間拡張をもたらすような、
サンプル数の減少による相対的な変化とは異なる比率で減少した期間がオーディオ信号の時間圧縮とピッチシフティングをもたらすような、あるいは、
サンプル数の増加による相対的な変化とは異なる比率で増加した期間がオーディオ信号の時間拡張とピッチシフティングをもたらすようなレートで読み出だされる、請求項50に記載の方法。 - 前記リーディングセグメントとトレイリングセグメントとをスプライスポイントで結合する前記ステップは、当該リーディングセグメントと当該トレイリングセグメントをクロスフェードすることを含む請求項50に記載の方法。
- ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合は、前記エンドポイントは、スプライスポイントに続くオーディオのセグメントを自己相関計算することで選択される、請求項50に記載の方法。
- ターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合は、前記エンドポイントは、スプライスポイントに先行するオーディオのセグメント及び後に続くオーディオのセグメントを自己相関計算することで選択される、請求項50に記載の方法。
- ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合又はターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合は、スプライスポイントの位置及びエンドポイントの位置は、
連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域に対して、連続した試験的なスプライスポイントの位置の周辺のオーディオサンプルの窓について相関計算し、そして、
最強の相関となる試験的なスプライスポイントの位置を決定し、この試験的なスプライスポイントの位置をスプライスポイントに指定し、最強の相関となる位置に実質的なエンドポイント位置を設定する、請求項50に記載の方法。 - 前記窓は方形窓である請求項55に記載の方法。
- 前記窓は実質的にクロスフェードの幅を持つ請求項56に記載の方法。
- 前記連続した試験的なスプライスポイントの位置は、2以上のオーディオサンプルにより間隔が保たれている請求項55に記載の方法。
- 前記連続した試験的なスプライスポイントの位置は、実質的に前記窓の幅により間隔が保たれている請求項58に記載の方法。
- 前記窓は実質的にクロスフェードの幅を持っている請求項59に記載の方法。
- ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合に、連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域は、各試験的なスプライスポイント位置に続き、スプライスポイントがエンドポイントに先行する請求項55に記載の方法。
- ターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合に、連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域は、各試験的なスプライスポイント位置に続き、スプライスポイントとエンドポイントの地位が入れ替えられ、エンドポイントがスプライスポイントに先行する請求項55に記載の方法。
- ターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合に、連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域は、各試験的なスプライスポイント位置に先行し、エンドポイントがスプライスポイントに先行する請求項55に記載の方法。
- ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少する場合又はターゲットセグメントを繰返すことでオーディオ信号のサンプルの数を増加する場合において、スプライスポイントの位置とエンドポイントの位置は、
連続した各試験的なスプライスポイントの位置に隣り合うオーディオサンプルの領域に対して、連続した試験的なスプライスポイントの位置の周辺のオーディオサンプルの窓について相関計算し、前記オーディオサンプルのすべてを係数Mで縮小し、
最強の相関となる試験的なスプライスポイントの位置を決定し、この試験的なスプライスポイントの位置を縮小されたスプライスポイントに指定し、
第2の連続した各試験的なスプライスポイントの位置に隣り合う縮小されていないオーディオサンプルの領域に対して、前記縮小されたスプライスポイントのM個のサンプル内で、第2の連続した試験的なスプライスポイントの位置の周辺の縮小されていないオーディオサンプルの窓について相関計算し、
最強の相関となる試験的なスプライスポイントの位置を前記第2の連続部に決定し、この試験的なスプライスポイントの位置をスプライスポイントに指定し、最高の相関となる位置に実質的にエンドポイントの位置を設定する
ことにより、選定される請求項50に記載の方法。 - 各チャンネル内のオーディオ信号をオーディトリーイベントに分割し、
オーディオ信号のタイムスケーリング及び/又はピッチシフティングの処理が非可聴に又は最小限の可聴性で処理されるようなオーディトリーイベントを特定するため、少なくとも1つのサイコアコースティックな基準を用いて前記オーディトリーイベントを分析し、
オーディオ信号のいずれかのチャンネルでオーディトリーイベントの境界が発生したところに、各々が境界を持つような結合されたオーディトリーイベントを決定し、
多数チャンネルオーディオ信号のタイムスケーリング及び/又はピッチシフティングの処理が、非可聴に又は最小限の可聴性で処理されるようなものとして特定された結合されたオーディトリーイベント内で、タイムスケーリング及び/又はピッチシフティング処理を行うことを含む、多数チャンネルオーディオ信号のタイムスケーリング及び/又はピッチシフティングの方法であって、
前記タイムスケーリング及び/又はピッチシフティング処理は、
オーディオ信号の各チャンネル間で特定された結合されたオーディトリーイベントに共通のスプライスポイントを選択し、そこで、多数のオーディオ信号のチャンネルの各々にある共通の前記スプライスポイントからの結果として生まれるスプライスポイントは、実質的にお互いに一列に並べられ、各スプライスポイントが当該スプライスポイントを導くオーディオ信号のリーディングセグメントを決定し、
前記共通のスプライスポイントから間隔をあけて配置された、前記結合されたオーディトリーイベント内に共通のエンドポイントを選択し、多数のオーディオ信号のチャンネルの各々の前記共通のエンドポイントからの結果として生まれるエンドポイントは、実質的にお互いに一列に並べられ、エンドポイントの後ろに続くオーディオ信号のトレイリングセグメントと、当該スプライスポイントとエンドポイントの間にターゲットセグメントを決定し、
前記リーディングセグメントとトレイリングセグメントとをオーディオ信号の各チャンネル内の前記スプライスポイントで結合し、当該エンドポイントが前記スプライスポイントより大きなサンプル数を有する場合は当該ターゲットセグメントを削除することでオーディオ信号のサンプルの数を減少し、又は、当該エンドポイントが前記スプライスポイントより小さなサンプル数を有する場合は当該ターゲットセグメントを繰返すことでオーディオ信号サンプルの数を増大し、
オーディオ信号の各チャンネルで結合されたリーディングセグメントとトレイリングセグメントを、多数チャンネルのオーディオ信号に要求されたタイムスケーリング及び/又はピッチシフティングを生じるようなレートで読み出すことを含む、方法。
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US83473901A | 2001-04-13 | 2001-04-13 | |
| US29382501P | 2001-05-25 | 2001-05-25 | |
| US09/922,394 US20020116178A1 (en) | 2001-04-13 | 2001-08-02 | High quality time-scaling and pitch-scaling of audio signals |
| US4564402A | 2002-01-11 | 2002-01-11 | |
| PCT/US2002/004317 WO2002084645A2 (en) | 2001-04-13 | 2002-02-12 | High quality time-scaling and pitch-scaling of audio signals |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2004527000A JP2004527000A (ja) | 2004-09-02 |
| JP2004527000A5 JP2004527000A5 (ja) | 2006-01-05 |
| JP4152192B2 true JP4152192B2 (ja) | 2008-09-17 |
Family
ID=27489006
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2002581514A Expired - Lifetime JP4152192B2 (ja) | 2001-04-13 | 2002-02-12 | オーディオ信号の高品質タイムスケーリング及びピッチスケーリング |
Country Status (7)
| Country | Link |
|---|---|
| EP (2) | EP1377967B1 (ja) |
| JP (1) | JP4152192B2 (ja) |
| CN (1) | CN1279511C (ja) |
| CA (1) | CA2443837C (ja) |
| MX (1) | MXPA03009357A (ja) |
| TW (1) | TWI226602B (ja) |
| WO (1) | WO2002084645A2 (ja) |
Families Citing this family (52)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7461002B2 (en) | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
| US7711123B2 (en) | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
| US7283954B2 (en) | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
| US7610205B2 (en) | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
| DK1386312T3 (da) | 2001-05-10 | 2008-06-09 | Dolby Lab Licensing Corp | Forbedring af transient ydeevne af audio kodningssystemer med lav bithastighed ved reduktion af forudgående stöj |
| US7240001B2 (en) | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
| US6934677B2 (en) | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
| US7502743B2 (en) * | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
| US7179980B2 (en) * | 2003-12-12 | 2007-02-20 | Nokia Corporation | Automatic extraction of musical portions of an audio stream |
| ATE390683T1 (de) | 2004-03-01 | 2008-04-15 | Dolby Lab Licensing Corp | Mehrkanalige audiocodierung |
| US7508947B2 (en) | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
| JP4031813B2 (ja) | 2004-12-27 | 2008-01-09 | 株式会社ピー・ソフトハウス | オーディオ信号処理装置、オーディオ信号処理方法およびその方法をコンピュータに実行させるプログラム |
| EP1927102A2 (en) | 2005-06-03 | 2008-06-04 | Dolby Laboratories Licensing Corporation | Apparatus and method for encoding audio signals with decoding instructions |
| DE102005045573B3 (de) * | 2005-06-22 | 2006-11-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ermitteln einer Stelle in einem Film |
| TWI396188B (zh) * | 2005-08-02 | 2013-05-11 | Dolby Lab Licensing Corp | 依聆聽事件之函數控制空間音訊編碼參數的技術 |
| WO2007036824A2 (en) * | 2005-09-30 | 2007-04-05 | Koninklijke Philips Electronics N.V. | Method and apparatus for processing audio for playback |
| GB2431839B (en) * | 2005-10-28 | 2010-05-19 | Sony Uk Ltd | Audio processing |
| US7831434B2 (en) | 2006-01-20 | 2010-11-09 | Microsoft Corporation | Complex-transform channel coding with extended-band frequency coding |
| RU2417514C2 (ru) | 2006-04-27 | 2011-04-27 | Долби Лэборетериз Лайсенсинг Корпорейшн | Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий |
| KR101482199B1 (ko) * | 2006-07-24 | 2015-01-14 | 마벨 월드 트레이드 리미티드 | 오디오 모니터링을 구비한 자기 및 광학 회전형 저장 시스템 |
| WO2008021247A2 (en) | 2006-08-15 | 2008-02-21 | Dolby Laboratories Licensing Corporation | Arbitrary shaping of temporal noise envelope without side-information |
| US7885819B2 (en) | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
| US8295684B2 (en) * | 2007-10-08 | 2012-10-23 | Sony Computer Entertainment America Inc. | Method and system for scaling content for playback with variable duration |
| US9275652B2 (en) * | 2008-03-10 | 2016-03-01 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Device and method for manipulating an audio signal having a transient event |
| AU2012216537B2 (en) * | 2008-03-10 | 2013-10-10 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Device and method for manipulating an audio signal having a transient event |
| US20090259672A1 (en) * | 2008-04-15 | 2009-10-15 | Qualcomm Incorporated | Synchronizing timing mismatch by data deletion |
| US8762561B2 (en) * | 2008-07-23 | 2014-06-24 | Qualcomm Incorporated | System, method or apparatus for combining multiple streams of media data |
| WO2010101527A1 (en) * | 2009-03-03 | 2010-09-10 | Agency For Science, Technology And Research | Methods for determining whether a signal includes a wanted signal and apparatuses configured to determine whether a signal includes a wanted signal |
| US8498874B2 (en) | 2009-09-11 | 2013-07-30 | Sling Media Pvt Ltd | Audio signal encoding employing interchannel and temporal redundancy reduction |
| DE102010001147B4 (de) | 2010-01-22 | 2016-11-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Mehrfrequenzbandempfänger auf Basis von Pfadüberlagerung mit Regelungsmöglichkeiten |
| AU2011226212B2 (en) | 2010-03-09 | 2014-03-27 | Dolby International Ab | Apparatus and method for processing an input audio signal using cascaded filterbanks |
| EP2545551B1 (en) | 2010-03-09 | 2017-10-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Improved magnitude response and temporal alignment in phase vocoder based bandwidth extension for audio signals |
| CA2792368C (en) | 2010-03-09 | 2016-04-26 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for handling transient sound events in audio signals when changing the replay speed or pitch |
| US8212923B2 (en) * | 2010-04-13 | 2012-07-03 | Newport Media, Inc. | SECAM line identification and PAL switch |
| EP2800401A1 (en) | 2013-04-29 | 2014-11-05 | Thomson Licensing | Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation |
| KR101953613B1 (ko) | 2013-06-21 | 2019-03-04 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 지터 버퍼 제어부, 오디오 디코더, 방법 및 컴퓨터 프로그램 |
| MY171256A (en) | 2013-06-21 | 2019-10-07 | Fraunhofer Ges Forschung | Time scaler, audio decoder, method and a computer program using a quality control |
| CN103796145B (zh) * | 2014-01-26 | 2017-01-11 | 深圳市微纳集成电路与系统应用研究院 | 听觉阈值确定方法、听觉阈值确定装置及助听器 |
| CN106060268A (zh) * | 2016-06-30 | 2016-10-26 | 维沃移动通信有限公司 | 一种移动终端的语音输出方法及移动终端 |
| WO2018180197A1 (ja) | 2017-03-28 | 2018-10-04 | 日本電気株式会社 | データ解析装置、データ解析方法およびデータ解析プログラム |
| EP3673671A1 (en) * | 2017-08-25 | 2020-07-01 | Sony Europe B.V. | Audio processing to compensate for time offsets |
| CN112437957B (zh) | 2018-07-27 | 2024-09-27 | 杜比实验室特许公司 | 用于全面收听的强加间隙插入 |
| CN109817237A (zh) * | 2019-03-06 | 2019-05-28 | 小雅智能平台(深圳)有限公司 | 一种音频自动处理方法、终端及计算机可读存储介质 |
| EP3949368B1 (en) | 2019-04-03 | 2023-11-01 | Dolby Laboratories Licensing Corporation | Scalable voice scene media server |
| CN112951218B (zh) * | 2021-03-22 | 2024-03-29 | 百果园技术(新加坡)有限公司 | 基于神经网络模型的语音处理方法、装置及电子设备 |
| CN114827657B (zh) * | 2022-04-28 | 2025-01-07 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频拼接方法、设备及存储介质 |
| CN117676253A (zh) * | 2022-08-25 | 2024-03-08 | 中兴通讯股份有限公司 | 视频的播放方法、终端设备及存储介质 |
| CN116343818B (zh) * | 2023-02-14 | 2026-01-30 | 昆明领飞科技有限公司 | 一种音频波形图绘制和缩放方法、系统和存储介质 |
| CN116189681B (zh) * | 2023-05-04 | 2023-09-26 | 北京水晶石数字科技股份有限公司 | 一种智能语音交互系统及方法 |
| CN116453529B (zh) * | 2023-05-12 | 2026-02-06 | 上海格子互动信息技术有限公司 | 一种用于实时情感语音转换的方法及系统 |
| CN116631377B (zh) * | 2023-05-19 | 2025-10-31 | 维沃移动通信有限公司 | 数据扩充方法、装置、电子设备及可读存储介质 |
| CN117272479B (zh) * | 2023-10-08 | 2024-02-23 | 山东鑫之源新材料科技有限公司 | 基于荷载时程分析的高强度土工膜顶破强度预测方法 |
Family Cites Families (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4624009A (en) * | 1980-05-02 | 1986-11-18 | Figgie International, Inc. | Signal pattern encoder and classifier |
| JPS57172511A (en) * | 1981-04-17 | 1982-10-23 | Sanyo Electric Co Ltd | Time-axis compressing and expanding circuit |
| US4464784A (en) * | 1981-04-30 | 1984-08-07 | Eventide Clockworks, Inc. | Pitch changer with glitch minimizer |
| JPS62108299A (ja) * | 1985-11-06 | 1987-05-19 | ヤマハ株式会社 | ピツチ変換方法 |
| US5175769A (en) * | 1991-07-23 | 1992-12-29 | Rolm Systems | Method for time-scale modification of signals |
| JPH1074097A (ja) * | 1996-07-26 | 1998-03-17 | Ind Technol Res Inst | オーディオ信号のパラメータを変更する方法及び装置 |
| US6049766A (en) * | 1996-11-07 | 2000-04-11 | Creative Technology Ltd. | Time-domain time/pitch scaling of speech or audio signals with transient handling |
| JP3017715B2 (ja) * | 1997-10-31 | 2000-03-13 | 松下電器産業株式会社 | 音声再生装置 |
| US6266644B1 (en) * | 1998-09-26 | 2001-07-24 | Liquid Audio, Inc. | Audio encoding apparatus and methods |
| JP4300641B2 (ja) * | 1999-08-10 | 2009-07-22 | ヤマハ株式会社 | マルチトラック音源信号の時間軸圧伸方法及び装置 |
| JP4344438B2 (ja) * | 1999-10-22 | 2009-10-14 | ローランド株式会社 | オーディオ信号波形処理装置 |
-
2002
- 2002-02-12 JP JP2002581514A patent/JP4152192B2/ja not_active Expired - Lifetime
- 2002-02-12 MX MXPA03009357A patent/MXPA03009357A/es active IP Right Grant
- 2002-02-12 CA CA2443837A patent/CA2443837C/en not_active Expired - Lifetime
- 2002-02-12 EP EP02717425.9A patent/EP1377967B1/en not_active Expired - Lifetime
- 2002-02-12 WO PCT/US2002/004317 patent/WO2002084645A2/en not_active Ceased
- 2002-02-12 EP EP10183622.9A patent/EP2261892B1/en not_active Expired - Lifetime
- 2002-02-12 CN CNB028081447A patent/CN1279511C/zh not_active Expired - Lifetime
- 2002-04-12 TW TW091107472A patent/TWI226602B/zh not_active IP Right Cessation
Also Published As
| Publication number | Publication date |
|---|---|
| EP1377967A2 (en) | 2004-01-07 |
| CA2443837A1 (en) | 2002-10-24 |
| EP1377967B1 (en) | 2013-04-10 |
| EP2261892B1 (en) | 2020-09-16 |
| MXPA03009357A (es) | 2004-02-18 |
| EP2261892A2 (en) | 2010-12-15 |
| HK1066088A1 (en) | 2005-03-11 |
| CN1511312A (zh) | 2004-07-07 |
| EP2261892A3 (en) | 2013-08-21 |
| WO2002084645A2 (en) | 2002-10-24 |
| CN1279511C (zh) | 2006-10-11 |
| WO2002084645A3 (en) | 2002-12-19 |
| JP2004527000A (ja) | 2004-09-02 |
| CA2443837C (en) | 2012-06-19 |
| TWI226602B (en) | 2005-01-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4152192B2 (ja) | オーディオ信号の高品質タイムスケーリング及びピッチスケーリング | |
| US8195472B2 (en) | High quality time-scaling and pitch-scaling of audio signals | |
| US12301189B2 (en) | Audio control using auditory event detection | |
| US20020116178A1 (en) | High quality time-scaling and pitch-scaling of audio signals | |
| US9165562B1 (en) | Processing audio signals with adaptive time or frequency resolution | |
| EP2549475B1 (en) | Segmenting audio signals into auditory events | |
| EP1393300B1 (en) | Segmenting audio signals into auditory events | |
| Crockett | High quality multi-channel time-scaling and pitch-shifting using auditory scene analysis | |
| US20100169105A1 (en) | Discrete time expansion systems and methods | |
| KR100870870B1 (ko) | 오디오 신호의 고품질 타임 스케일링 및 피치 스케일링 | |
| AU2002248431A1 (en) | High quality time-scaling and pitch-scaling of audio signals | |
| HK1066902B (en) | Segmenting audio signals into auditory events | |
| HK1175882B (en) | Segmenting audio signals into auditory events |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050208 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050302 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051019 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080219 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080519 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080610 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080701 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4152192 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110711 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110711 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120711 Year of fee payment: 4 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120711 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130711 Year of fee payment: 5 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| EXPY | Cancellation because of completion of term |