CN121844580A - 用于音频信号处理以有利地修改音频信号的相干部分的装置和方法 - Google Patents

用于音频信号处理以有利地修改音频信号的相干部分的装置和方法

Info

Publication number
CN121844580A
CN121844580A CN202480058900.3A CN202480058900A CN121844580A CN 121844580 A CN121844580 A CN 121844580A CN 202480058900 A CN202480058900 A CN 202480058900A CN 121844580 A CN121844580 A CN 121844580A
Authority
CN
China
Prior art keywords
signal
audio input
signal portion
input signals
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202480058900.3A
Other languages
English (en)
Inventor
帕布勒·潘特
安德烈亚斯·沃尔瑟
汉内·斯滕泽尔
朱利恩·海尔巴赫
朱利安·克拉普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Publication of CN121844580A publication Critical patent/CN121844580A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

提供了根据实施例的用于音频信号处理的装置。该装置包括信号分离器(110),用于将至少两个音频输入信号中的每一个分离为第一信号部分和第二信号部分。此外,该装置包括信号处理器(120),用于通过修改至少两个音频输入信号中的至少一个音频输入信号的第一信号部分,从至少两个音频输入信号中的每一个的第一信号部分获取至少两个音频输入信号中的每一个的相位对齐信号部分;其中信号处理器(120)被配置为通过将至少一个音频输入信号的第一信号部分与至少两个音频输入信号中的至少另外的音频输入信号的第一信号部分进行相位对齐来修改至少一个音频输入信号的第一信号部分。此外,该装置包括组合器(130),用于组合至少两个音频输入信号中的每一个的相位对齐信号部分和第二信号部分以获取至少两个音频输出信号。

Description

用于音频信号处理以有利地修改音频信号的相干部分的装置 和方法
技术领域
本发明涉及音频处理,涉及一种用于音频信号处理以有利地修改音频信号的相干部分的装置和方法,更具体地,涉及有利地修改音频信号的相干部分的(预)处理。
背景技术
近年来,如条形音箱和智能扬声器等紧凑型音频设备变得日益流行。与传统扬声器设置(其中使用专用扬声器再现单个输入通道的内容)相比,这些紧凑再现设备通常仅具有有限数量的扬声器(“有限数量的扬声器”例如可以意味着“具有有限数量的驱动器的单个设备”)。最简单的智能扬声器仅由用于音频回放的单个全范围驱动器组成。
为了能够再现或至少模拟原始内容信号所期望的空间印象的再现,具有多于一个扬声器驱动器的智能扬声器或条形音箱通常包括空间音频处理,利用声学或心理声学手段营造空间印象。
当今消费者环境中最常见的输入信号类型仍然是双通道立体声内容,而环绕内容(例如5.1或7.1)以及具有高度通道的沉浸式内容(例如5.1+4或7.1+4),不同阶次的环绕立体声信号和基于对象的音频内容的数量正在持续增加。
为了能够在上述消费者回放设备上再现此类多通道信号,不同通道的信号需在处理中的某点组合,随后通过有限数量的扬声器进行再现。
在内容创造期间,通过音频录制、混合和渲染利用不同通道或对象上信号分量之间的增益差、延迟差和相位差,来唤起特定的感知效果。
如果使用所述紧凑型消费者设备而不是预期的回放设置来再现这样的内容,则为了在紧凑型设备上回放而对这些信号进行的组合可能导致偏离原始信号,并且导致偏离所唤起的感知。
可能发生的最关键情况之一(并且通过所述发明方法防止了该情况)会导致信号内容(可以是完整信号,也可以仅仅是信号的部分或分量,这取决于内容的具体情况)完全消除,这意味着它们将完全听不见,这将是内容的剧烈变化。
在以下示例说明(使用场景描述)中,我们示例性地使用最简单的再现设备为例,该设备由仅具有单个扬声器驱动器的单个单通道智能扬声器组成,该扬声器驱动器由双通道输入信号馈送。
图2示出了特定于设备的处理。在这种场景下,两个输入信号被组合以通过单个驱动器重放。在这种情况下,当两个输入信号携带反相信号或具有反相部分的信号时,就会发生信号消除,这些信号在组合以通过单个驱动器重放时将被消除。这样,反相信号部分携带的信号内容将在再现中丢失。
这种情况并不理想,因为制作中常因特定原因包括反相信号部分。其中之一是当两个反相信号通过两个单独的扬声器重放时,营造特定的感知效果。
虽然这种效果无法通过仅在单个扬声器上回放信号来实现,但是仍然期望在再现的声音中保留这些信号的内容。
发明内容
下面所述的本发明的方法避免了这种信号部分的丢失,使得所有内容都是可听见的。
图3示出了第二种场景,其中考虑了具有多通道输入、两个扬声器及空间处理的设备,其采用‌偶极处理(也称为‌梯度处理)‌。梯度处理的目的是在向多个扬声器施加信号时对其相位进行反转,以生成重放设备的特定指向性模式。
在图3中,输入In_1至In_5可分别对应于5.0环绕声信号的左通道、中心通道、右通道、左环绕通道和右环绕通道。
左信号(In_1)由设备的左驱动器再现。
右通道(In_3)由设备的右驱动器再现。
中心通道(In_2)被分割并由设备的两个扬声器再现。
环绕通道(In_4和In_5)以偶极方式馈送至设备的两个扬声器。这通过对分割信号施加相位反转(乘以-1)来指示,该信号被馈送至驱动器中的一个。注意,对于这两个信号,将相位反转应用于不同的扬声器。
在这种设备中对输入通道进行处理通常包括更多步骤并且更复杂。例如,中心信号将被施加衰减以避免通过两个扬声器回放时比左信号和右信号更响。
此外,对于环绕通道可以应用额外处理,并且偶极处理可以具有应用于两个输入信号的如增益和延迟的另外的参数,以控制实现的方向性效果。
为了示例的目的,图3重点展示了核心,该核心是施加于信号的相位反转(乘以-1)。类似的处理也应用于具有两个以上扬声器的设备中,以实现定向再现或特定指向性模式。
文献中已知不同的方法和实现。
如果此类差分处理的输入信号携带正相关(见下文)的信号分量,则这些分量将在重放时被抵消。在给定示例中,发生这种情况的一个例子是:当某个信号被定位在两个环绕通道之间时。
本发明的目的是提供改进的音频信号处理概念。本发明的目的是通过根据权利要求1的装置、根据权利要求65的方法和根据权利要求66的计算机程序来实现的。
根据实施例提供了一种用于音频信号处理的装置。该装置包括信号分离器,用于将至少两个音频输入信号中的每一个分离为第一信号部分和第二信号部分。此外,该装置包括信号处理器,用于通过修改至少两个音频输入信号中的至少一个音频输入信号的第一信号部分,从至少两个音频输入信号中的每一个的第一信号部分获取至少两个音频输入信号中的每一个的相位对齐信号部分;其中信号处理器被配置为通过将所述至少一个音频输入信号的第一信号部分与至少两个音频输入信号中的至少另外的音频输入信号的第一信号部分进行相位对齐来修改所述至少一个音频输入信号的第一信号部分。此外,该装置包括组合器,用于组合至少两个音频输入信号中的每一个的相位对齐信号部分与第二信号部分以获取至少两个音频输出信号。
此外,根据实施例提供了一种用于音频信号处理的方法。该方法包括:
-将至少两个音频输入信号中的每一个分离为第一信号部分和第二信号部分;
-通过修改至少两个音频输入信号中的至少一个音频输入信号的第一信号部分,从至少两个音频输入信号中的每一个的第一信号部分获取至少两个音频输入信号中的每一个的相位对齐信号部分;其中修改所述至少一个音频输入信号的第一信号部分是通过将至所述少一个音频输入信号的第一信号部分与至少两个音频输入信号中的至少另外的音频输入信号的第一信号部分进行相位对齐而实现的;以及
-组合至少两个音频输入信号中的每一个的相位对齐信号部分和第二信号部分以获取至少两个音频输出信号。
此外,根据实施例提供了一种计算机程序,当计算机或信号处理器上执行时,该计算机程序用于实现上述方法。
一些实施例涉及一种处理器,该处理器对音频输入信号进行处理,使其以某种方式进行调整,以避免在后续处理中可能发生的不利影响。
优选实施例涉及音频再现领域。尽管下文以再现场景作为示例应用进行说明,但该处理也可应用于其他场景,例如内容制作、音频编码、音频信号传输等。
这些实施例避免了正相关信号部分的丢失,而在现有技术系统的再现中,这种信号部分会因差分处理而被抵消。
附图说明
在下文中,将参照附图更详细地描述本发明的实施例,其中:
图1示出了根据实施例的用于音频信号处理的装置。
图2示出了特定于设备的处理,其中,两个输入信号被组合以在单个驱动器上重放。
图3示出了第二种场景,其中考虑了一种具有多通道输入、两个扬声器以及空间处理的设备,该设备采用偶极处理。
图4示出了一种场景,其中处理器在其输入接收两个音频信号,处理这两个音频信号,并输出两个音频信号。
图5示出了根据实施例的音频信号处理的更多细节。
图6示出了根据实施例的示意图,其中加权因子随频率增加而减小。
图7示出了根据实施例的用于不同阈值的分离函数。
图8示出了描绘根据实施例的相关性指示符和相关性自适应时间常数之间的示例映射的曲线图。
图9示出了根据实施例对起音时间和释放时间进行平滑的示例。
图10示出了根据实施例的具有智能扬声器的示例应用。
图11示出了根据实施例的场景,其中音频信号从源设备发送至多个重放设备。
图12示出了根据实施例的设备,其在单个外壳中具有两个扬声器驱动器。
图13示出了根据实施例的条形音箱设备中的处理的示例应用。
图14示出了通过以并行方式多次应用根据实施例的处理的多输入通道的实施例。
图15示出了通过以串联/顺序方式多次应用根据实施例的处理的多输入通道的实施例。
图16示出了通过结合图14的并行方式和图15的串联/顺序方式,多次应用根据实施例的处理的多输入通道的实施例。
图17示意性地示出了通过将处理器扩展为支持多个输入并增加基于选择参数或控制参数来选择应被处理的两个输入通道的装置的多输入通道的实施例。
图18示意性地示出了通过计算多个通道及其不同组合之间的相干性和相关性,并修改处理器使相位对齐从一个通道发生到多个其它通道的多输入通道的实施例。
图19示出了不含功率补偿的实施例。
图20示出了根据实施例的转换函数。
具体实施方式
图1示出了根据实施例的用于音频信号处理的装置。
该装置包括信号分离器110,用于将至少两个音频输入信号中的每一个分离为第一信号部分和第二信号部分。
此外,该装置包括信号处理器120,用于通过修改至少两个音频输入信号中的至少一个音频输入信号的第一信号部分,从至少两个音频输入信号中的每一个的第一信号部分获得至少两个音频输入信号中的每一个的相位对齐信号部分;其中,信号处理器120被配置为通过将所述至少一个音频输入信号的第一信号部分与至少两个音频输入信号中的至少另外的音频输入信号的第一信号部分进行相位对齐,来修改所述至少一个音频输入信号的第一信号部分。
此外,该装置包括组合器130,用于组合至少两个音频输入信号中的每一个的相位对齐信号部分与第二信号部分以获取至少两个音频输出信号。
根据实施例,信号分离器110可以例如被配置为根据相干性和/或相关性将至少两个音频输入信号中的每一个分离为第一信号部分和第二信号部分。
在实施例中,信号分离器110可以例如被配置为根据第一信号部分与至少两个音频输入信号中的一个或多个其他音频输入信号的信号部分的相干性和/或相关性,将至少两个音频输入信号中的每一个分离为第一信号部分和第二信号部分。
根据实施例,信号分离器110可以例如被配置为将至少两个音频输入信号中的每一个分离为第一信号部分(例如相干信号部分)和第二信号部分(例如非相干信号部分),使得第一信号部分可以例如与至少两个音频输入信号中的一个或多个其他音频输入信号的信号部分相干。
在实施例中,为了获取至少两个音频输入信号中的每一个的相位对齐信号部分,信号处理器120可以例如被配置为修改所述至少一个音频输入信号的第一信号部分,并且被配置为不修改所述至少一个其他音频输入信号的第一信号部分。
根据实施例,为了获取至少两个音频输入信号中的每一个的相位对齐信号部分,信号处理器120可以例如被配置为修改至少两个音频输入信号中的每一个的第一信号部分。
在实施例中,至少两个音频输入信号可以例如正好是两个音频输入信号,至少一个音频输入信号可以例如正好是一个音频输入信号,至少一个其他音频输入信号可以例如正好是一个其他音频输入信号,并且至少两个音频输出信号可以例如正好是两个音频输出信号。
根据实施例,信号处理器120可以例如被配置为在频域中将所述至少一个音频输入信号的第一信号部分与所述至少一个其他音频输入信号的第一信号部分进行相位对齐。
在实施例中,信号处理器120可以例如被配置为在频域中将所述至少一个音频输入信号的第一信号部分的至少一个频带的相位与所述至少一个其他音频输入信号的第一信号部分的至少一个频带的相位进行对齐。
根据实施例,信号处理器120可以例如被配置为在频域中将所述至少一个音频输入信号的第一信号部分的两个或更多个频带中的每一个的相位与所述至少一个其他音频输入信号的第一信号部分的所述两个或更多个其他频带中的每一个的相位进行对齐。
在实施例中,该装置还包括时频变换单元,用于将时域中表示的至少两个音频输入信号从时域变换到频域。该装置还包括频时变换单元,用于将频域中表示的至少两个音频输出信号从频域变换到时域。
根据实施例,时频变换单元可以例如被配置为进行短时傅立叶变换,以将至少两个音频输入信号从时域变换到频域。频时变换单元可以例如被配置为进行短时逆傅立叶变换,以将至少两个音频输出信号从频域变换到时域。
在实施例中,信号处理器120可以例如被配置为将所述至少一个音频输入信号的第一信号部分与所述至少一个其他音频输入信号的第一信号部分进行相位对齐,使得在所述至少一个音频输入信号的第一信号部分与所述至少一个其他音频输入信号的第一信号部分负相关的情况下,所述至少一个音频输入信号的相位对齐信号部分和所述至少一个其他音频输入信号的相位对齐信号部分在相位对齐之后具有相同的相位。
根据实施例,信号处理器120可以例如被配置为将所述至少一个音频输入信号的第一信号部分与所述至少一个其他音频输入信号的第一信号部分进行相位对齐,使得在所述至少一个音频输入信号的第一信号部分与所述至少一个其他音频输入信号的第一信号部分正相关的情况下,所述至少一个音频输入信号的相位对齐信号部分和所述至少一个其他音频输入信号的相位对齐信号部分在相位对齐之后具有反转的相位。
在实施例中,信号处理器120可以例如被配置为通过将所述至少一个其他音频输入信号的第一信号部分的相位信息复制到所述至少一个音频输入信号的第一信号部分,来将所述至少一个音频输入信号的第一信号部分与所述至少一个其他音频输入信号的第一信号部分进行相位对齐。
根据实施例,信号处理器120可以例如被配置为通过将所述至少一个其他音频输入信号的第一信号部分的相位信息复制并反相到所述至少一个音频输入信号的第一信号部分,来将所述至少一个音频输入信号的第一信号部分与所述至少一个其他音频输入信号的第一信号部分进行相位对齐。
在实施例中,信号处理器120可以例如被配置为将至少一个音频输入信号的第一信号部分与至少一个其他音频输入信号的第一信号部分进行相位对齐,而不改变所述至少一个音频输入信号的第一信号部分的幅度,也不改变所述至少一个其他音频输入信号的第一信号部分的幅度。
根据实施例,至少两个音频输入信号中的每一个的第二信号部分可以例如在被组合器130组合时未被修改。
在实施例中,至少两个音频输入信号可以例如包括一个或多个音频通道信号和/或一个或多个音频对象信号和/或一个或多个环绕立体声信号。
在实施例中,装置包括功率补偿器,使得至少两个音频输出信号的总信号能量对应于至少两个音频输入信号的总信号能量,或者使得至少两个音频输出信号中的一个的信号能量对应于至少两个音频输入信号中的一个的信号能量,或者使得至少两个音频输出信号中的每一个的信号能量对应于至少两个音频输入信号中的一个的信号能量。
根据实施例,功率补偿器例如可被配置为对按频率区间或按频带进行功率补偿。
在实施例中,信号分离器110可以例如被配置为通过对音频输入信号的时频区间应用第一掩码值以获取第一信号部分的时频区间,并且通过对音频输入信号的时频区间应用取决于第一掩码值的第二掩码值以获取第二信号部分的时频区间,来将至少两个音频输入信号中的每个音频输入信号分离为第一信号部分和第二信号部分。
根据实施例,信号分离器110可以例如被配置为将相同的第一掩码值应用于音频输入信号的相同频带的两个或更多个时频区间,以获取相同频带的第一信号部分的两个或更多个时频区间;和/或信号分离器110可以例如被配置为将相同的第二掩码值应用于音频输入信号的相同频带的两个或更多个时频区间,以获取所述相同频带的第二信号部分的两个或更多个时频区间。
在实施例中,信号分离器110可以例如被配置为通过将第一掩码值与所述音频输入信号的所述时频区间相乘以获取第一信号部分的时频区间,并且通过将第二掩码值与互音频输入信号的所述时频区间相乘以获取第二信号部分的时频区间,来将至少两个音频输入信号中的每个音频输入信号分离为第一信号部分和第二信号部分,其中第一掩码值呈现值v1,其中0≤v1≤1,并且其中第二掩码值v2=1-v1。
根据实施例,信号分离器110可以例如被配置为将相干信号部分分离为所述音频输入信号的第一信号部分和第二信号部分,使得第一信号部分仅包括至少两个音频输入信号的相干信号部分,所述相干信号部分总和呈现大于阈值的潜在抵消(如相位正确或如相位反转)。
在实施例中,信号分离器110可以例如被配置为针对所述音频输入信号的多个时频区间中的每一个更新第一掩码值和第二掩码值,使得第一信号部分仅包括至少两个音频输入信号的相干信号部分,所述相干信号部分总和呈现大于阈值的潜在抵消。
根据实施例,信号分离器110可以例如被配置为根据多个时频区间中的每个时频区间的相干性,将至少两个音频输入信号中的每个音频输入信号分离为第一信号部分和第二信号部分,其中相干性在时间上是平均的。
在实施例中,信号分离器110可以例如被配置为根据在时间上平均的所述时频区间的自相关,并且根据在时间上平均的所述时频区间的互相关,来确定多个时频区间中的每个时频区间的相干性。
根据实施例,信号分离器110可以例如被配置为确定频率相关的绝对互谱相位,所述绝对互谱相位通过频率相关的均值汇总为单个绝对互谱相位值。
在实施例中,呈现值为0的单个频率相关的绝对互谱相位值指示正相关,呈现值为0.5的单个频率相关的绝对互谱相位值指示不相关,并且呈现值为1的单个频率相关的绝对互谱相位值指示负相关。
根据实施例,信号分离器110可以例如被配置为通过采用分离函数将至少两个音频输入信号中的每个音频输入信号分离为第一信号部分和第二信号部分,分离函数取决于多个时频区间中的时频区间的相干性。
在实施例中,分离函数将时频区间的幅度分离为相干幅度部分和非相干幅度部分。
根据实施例,分离函数可以例如是频率相关的。
在实施例中,分离函数取决于至少两个音频输入信号中的至少一个的信号属性。
根据实施例,分离函数取决于阈值。
在实施例中,阈值可以例如是频率相关的,使得信号分离器110可以例如被配置为,对于相同的相干性,与被分配给呈现较高频率的第一信号部分的幅度部分相比,将更大幅度部分分配给呈现较低频率的第一信号部分。
根据实施例,装置包括用于设置阈值的接口。
在实施例中,接口可以例如被配置为按频带单独地设置阈值或按时频区间单独地设置阈值。
根据实施例,信号分离器110可以例如被配置为随时间平滑地将至少两个音频输入信号分离为第一信号部分和第二信号部分。
在实施例中,信号分离器110可以例如被配置为根据起音时间和/或释放时间随时间平滑所述至少两个音频输入信号的分离,所述起音时间限定了当相干性增加时分离掩码的适配,所述释放时间限定了当相干性减小时分离掩码的适配。
根据实施例,信号分离器110可以例如被配置为针对正相关的信号与针对负相关的信号采用不同的起音时间;和/或信号分离器110可以例如被配置为针对正相关的信号与针对负相关的信号采用不同的释放时间。
在实施例中,信号分离器110可以例如被配置为平滑起音时间随时间的变化;和/或信号分离器110可以例如被配置为平滑释放时间随时间的变化。
根据实施例,信号分离器110可以例如被配置为在第一预定时间段内仅将起音时间改变最多至第一预定量;和/或其中信号分离器110可以例如被配置为在第二预定时间段内仅将起音时间改变最多至第二预定量。第二预定量可以例如等于或不同于第一预定量;并且其中第二预定时间段可以例如等于或不同于第一预定时间段。
在实施例中,装置可以例如被配置为仅处理至少两个音频输入信号的特定频带。
根据实施例,装置可以例如被配置为仅处理至少两个音频输入信号中呈现特定信号特性或呈现特定属性的特定信号部分。
在实施例中,至少两个音频输入信号中的音频输入信号的特定信号特性或特定属性可以例如为至少以下之一:
存在语音,
存在声音部分,
音频输入信号是否为中心信号,
音频输入信号作为中心信号,是否从其他通道接收或得出,
音频输入信号是否为环境信号,
音频输入信号是否为通道信号,
音频输入信号是否为对象信号,
音频输入信号是否为环绕立体声信号,
音频输入信号的方向信息,
音频输入信号的声像定位信息,
音频输入信号是否包含瞬态信号部分。
根据实施例,信号分离器110可以例如被配置为在时域中确定相关性指示符。
在实施例中,信号分离器110可以例如被配置为通过采用滤波器组并且通过计算特定频带相关性,来计算时域中的频率相关的相关性指示。
根据实施例,装置还包括特定于设备的处理级,用于从所述至少两个音频输出信号生成单个扬声器输出。
在实施例中,装置可以例如被配置为将至少两个音频输出信号馈入三个或更多个扬声器中的每个扬声器。
根据实施例,装置可以例如被配置为接收关于扬声器设置的信息。装置可以例如被配置为使用关于扬声器设置的信息来绕过或不绕过由信号分离器110、信号处理器120和组合器130进行的处理。
在实施例中,装置还包括特定于设备的处理级,用于使用关于两个扬声器的一个或多个能力的信息和/或关于两个扬声器之间的距离的信息,从至少两个音频输出信号生成用于两个扬声器的两个扬声器馈送。
根据实施例,至少两个音频输入信号可以例如是至少三个音频输入信号。
在实施例中,装置可以例如被配置为通过两次或更多次地应用信号分离器110、信号处理器120和组合器130的处理来处理至少三个音频输入信号。
根据实施例,装置可以例如被配置为并行地和/或顺序地两次或更多次地应用信号分离器110、信号处理器120和组合器130的处理。
在实施例中,装置可以例如被配置为通过将处理器扩展到多个输入并且通过采用用于根据选择参数或控制参数来选择三个或更多个音频输入信号中的将被处理的两个音频输入信号的装置,来处理至少三个音频输入信号。
根据实施例,装置可以例如被配置为通过计算至少三个音频输入信号中两对或更多对信号对之间的‌相干性和‌相关性,和/或通过计算其不同组合,来处理至少三个音频输入信号;并且信号处理器120可以例如被配置为使用至少三个音频输入信号中的一个音频输入信号的第一信号部分的相位对至少三个音频输入信号中的两个或更多个其他音频输入信号进行相位对齐。
在实施例中,信号分离器110可以例如被配置为还根据至少两个音频输入信号之间的‌增益差异‌和/或‌相位差异‌,将至少两个音频输入信号分离为第一信号部分和第二信号部分。
根据实施例,信号分离器110可以例如被配置为‌仅将至少两个音频输入信号中正相关程度大于阈值的相干信号部分‌分离为至少两个音频输入信号的第一信号部分。
在实施例中,装置可以例如被配置为‌仅处理至少两个音频输入信号中负相关程度小于阈值的相干信号部分‌。
根据实施例,装置可以例如被配置为对跨频率计算的相干性值进行平滑。
在实施例中,装置可以例如被配置为沿频率对分离因子进行平滑。
根据实施例,第一信号部分可以例如为相干信号部分,和/或第二信号部分可以例如为非相干信号部分。
以下将描述本发明的特定实施例。
该发明性方法描述了一种处理器,其在输入端接收两个音频信号。
对这些信号进行分析和处理,以防止在可能的后续处理或后续处理步骤中产生不利影响。
图4示出了一种场景,其中处理器在其输入接收两个音频信号,对其进行处理,并输出两个音频信号。
在下文所述的优选实施例中,通过分析两个信号之间的相似性来区分会造成不利影响的信号部分与不会造成不利影响的信号部分。两个信号之间的相似性基于相关性和相干性进行估计,具体如下文进一步说明。
输入信号经分析后,相干部分的相位信息被对齐。
相干部分的相位对齐包括对两个信号中的一个信号的相位信息进行调整,使其与另一个信号的相位匹配。
两种变体是可行的:
1.对两个信号进行相位对齐,使得反相信号或反相信号部分在处理后具有相同的相位。
2.对两个信号进行相位对齐,使得同相信号或同相信号部分在处理后具有反转的相位。
图5示出了根据实施例的音频信号处理的更多细节。
在优选实施例中,将信号的连续短部分转换到频域(图5中的STFT模块,STFT=“短时傅里叶变换”)。
对输入信号In_1和In_2执行分离处理,将输入信号分解为两个输入信号中的相干的部分(Coh_1和Coh_2)以及非相干的部分(Noncoh_1和Noncoh_2)。
输入信号中的一个的相干信号部分(Coh_2)经过处理,使其信号部分的相位与Coh_1 的相位对齐。
在此处理阶段,Coh_2 的幅度未改变。
对于Coh_1,其幅度和相位均未改变。
两个输入信号的非相干部分也保持不变。
相位对齐之后,将信号的相干部分与非相干部分进行组合。
处理后的信号(Proc_2 + Noncoh_2)进一步处理,使得信号Out_2的信号能量(时间/频率相关,例如按频率区间或频带)与输入信号In_2的信号能量对应。具体频带类型无关紧要。例如可以是倍频程频带、1/3倍频程频带、巴克尺度频带等。此说明同样适用于所有在时域/频域中执行的其他处理步骤。(这对于Out_1并非必要,因为Out_1对应于In_1。)
尽管在优选实施例中执行了这种功率补偿,但它通常是可选的,因为在许多使用情况下,与原始信号相比,所述的相位对齐并不会导致处理后的信号发生巨大的能量变化。
输出信号随后被转换回时域。
下文将描述特定实施例中的各处理步骤。
信号分离基于时域/频域中分离掩膜(M(f,s))的计算。该分离掩膜在每个时间帧的每个频率区间中包含0和1之间的值。通过以下方式将输入频谱与分离掩膜相乘,可获取“相干”频谱(Coh_1(f,s), Coh_2(f,s))和“非相干”频谱(Noncoh_1(f,s), Noncoh_2(f,s)):
其中f是离散频率(区间)的指示,s离散时间(对于时间帧)的指示。
分离掩膜是根据两个输入信号之间的相干性计算得到的。
信号In_1与In_2之间的相干性可基于平均自谱和互谱进行计算,其中时间平均过程由因子α控制(该因子决定过去信号行为对当前估计值的影响)。
其中指示期望值,指示复共轭。
单帧s的平均值/期望值是从帧s的值与先前帧的平均值获得的:
由此获得每个时频区间的相干性值。
相干性可以取0和1之间的值,其中
●值为0指示两个输入信号之间不相关,这意味着它们相互独立。
●相干性值为1指示完全正相关或完全负相关。这表明信号要么是相同的(相干性=1并且相关性=1),要么它们携带相同的信号,但其中一个信号与另一个信号相比相位反转(相干性=1且相关性=-1)。
(术语角度和相位可以互换使用。)
从互谱的归一化绝对角度可获得信号In_1与In_2之间的相关性符号的指示符。它取0和1之间的值,其中接近0的值指示正相关(=相位差接近零),接近1的值指示负相关(=相位差接近180度),接近0.5的值指示不相关或相位差为90度。为了获得该指示符,通过频率加权平均,将频率相关的绝对互谱相位汇总为单一值。
在图6所示的处理的优选实施例中,加权因子随频率增加而递减。
相关性指示符()可以如下计算,
其中是绝对归一化互谱角,是频率相关的加权因子。
在实施例中,可以通过参数调整信号分离,以定义例如高于哪个阈值的信号部分归属于相干或非相干部分。分离可以被参数化,使得分离决策不是二元判断,而是使相干部分和非相干部分的分配具有平滑过渡。
相干部分和非相干信号部分的分离是基于每个时频区间的估计相干性值。
在优选实施例中,使用了根据图7中所示函数的分离函数。
可以为相干性设置阈值,该阈值定义当信号幅度(即特定区间的幅度)的一半归属于相干部分、另一半归属于非相干部分时的相干性值。根据设定的阈值,相干性值接近0或1的平滑过渡区域形状也会变化。(阈值不能为0或1)。
其中是频率相关的阈值,是调节提取曲线陡度的因子。可以是大于0且小于1的任何数,可以是大于0的任何数。(为清楚起见,上述公式中省略了频率和时间指数。)
分离函数在不同频率区域中可能是不同的,即可以以频率相关的方式进行调节。(例如,对于低频,可以例如被设置为较低的底值,和/或,对于高频,可被设置为较高的底值,并在较低的底值和较高的底值之间具有线性过渡,其中可以例如被设置为2和15之间的值)。
阈值和指定的分离函数在不同的频率区域中可以是不同的,即可以以频率相关的方式对其进行调整。
在优选实施例中,对于低频和高频分别定义频率相关的阈值,两者之间具有线性过渡。
例如,在低频段可以使用较低的阈值,而在高频段则可以使用较高的阈值,从而只用高度相关的信号部分才会最终进入分离后的信号的相干部分,而该部分最终将相位对齐。
在实施例中,该(频率相关的)阈值是可根据具体的应用场景进行调节的参数。
用于将信号部分分离为相干部分和非相干部分的最终因子,还可随时间进行平滑,以实现不同相干度信号的平滑过渡,并避免分离中的快速波动。
在优选实施例中,该平滑采用不同的时间常数:在从低相干性向高相干性变化时采用起音时间常数(attack time constant),从高相干性区域向低相干性区域变化时采用释放时间(release time)。
起音时间和释放时间是控制分离掩模适配速度的调节参数。如果信号包含突然出现的相干内容,则较短的起音时间会导致分离掩模的值在两个连续时间帧之间快速增加;如果相干信号不再相干,则较短的释放时间会导致分离掩模的值在两个连续帧之间快速减小。
长的起音时间和释放时间导致分离掩码对内容变化的适配较慢。
正相关信号部分与负相关信号部分可以采用不同的起音时间和释放时间。
针对正相关的信号或负相关的信号应用不同的起音时间和释放时间,以便根据实际信号内容自适应地调整掩码。在优选实施例中,相关性符号用于控制起音时间和释放时间。
图8示出了根据实施例的曲线图,该曲线图描绘了前述相关性指示符和相关性自适应时间常数(可以是起音时间或释放时间)之间的示例映射。对于该映射,为相关性指示符高于0.8的负相关的内容定义了10ms的短时间常数,而为相关性指示符低于0.5的正相关的内容定义了300ms的时间常数。
由于信号的相关性可能在后续帧之间快速变化,因此与通过图8所示函数与相关性指示符相关的目标起音时间和目标释放时间也可能快速变化。然而,在后续帧之间过快地改变控制分离掩码适配速度的起音时间和释放时间是不期望的。
因此,采用额外的时间常数来控制上述起音时间和释放时间的适配速度。它们的功能与前述起音时间和释放时间相同,不同之处在于,它们控制的不是分离掩码值的适配速度,而是起音时间值和释放时间值的适配速度。
图9示出了根据实施例的对起音时间和释放时间进行平滑的示例。图9特别示出了时间常数平滑中的较短的起音时间和较长的释放时间的行为。
因为不期望过快地改变分离的起音时间和释放时间,因此对实际应用的值在时间上进行平滑以避免突然的改变,并且起音时间和释放时间的适配速度可以由平滑参数控制。
信号以这种方式分离后,相干信号部分的相位被对齐。
可以选择一个信号作为参考信号(在我们的示例中选择In_1作为参考。由于仅处理两个信号中的相似信号部分,因此实际的选择并不是至关重要的)。
在优选实施例中,对齐包括:
●对于变体1:将参考信号的相位信息复制到其他信号(即两个信号均使用参考信号的相位信息)。
●对于变体2:将参考信号的相位信息复制并反相到其他信号。
待处理信号的非相干部分(以及未馈入相位对齐的相干部分)保持不变。
由于优选处理方式是在时频域中进行的,因此所有处理参数都可以设置为频率相关的。例如,相干性计算中的时间常数、相干性阈值、信号分离时间常数控制、相关性指示符等,都可以根据具体应用场景,进行频率相关的调节。
类似地,整个处理可以仅在所选择的频带中执行。
将处理限制于输入的特定部分的可替换方式将是依赖于信号应用该处理,即例如仅将其应用于输入信号的语音或人声部分。
在可替换的实施例中,相关性指示符可以例如在时域中计算(这将对应于实际信号相关性)。通过滤波器组和各频带的相关性计算,可在时域中实现频率相关的相关性计算。
(频率相关的)相关性或相关性指示符可用于仅提取位于特定相关性限制内的内容的部分,即仅将信号中位于指定相关性范围内的部分分离以馈送到Coh_1和Coh_2。
在下文中,给出了特定实施例的各种应用场景。
在已知的处理路径中(例如制作或再现系统中),该处理可以应用于后期被组合的信号。
在处理或再现路径可能在操作期间改变的系统中(例如因用户可调节、自适应特定边界条件或环境),该处理可以应用于后期最可能被合并的信号。
图10示出了根据实施例的示例性应用(在图10中标有PFCP的块),其中使用前文介绍的简单智能音箱。
对输入信号应用预处理的具体优势(例如相较于将预处理作为特定于设备的处理的最后步骤),可以通过多回放设备应用场景体现。
例如,如果目标回放系统由多个回放设备组成,则该方法尤其可以是有益地应用的。例如,在多房间回放场景中,当多个智能音箱被馈送相同的双通道信号时,可能就是这种情况。仅应用一次该处理就足够了(例如,在播放器设备中,或在向其他设备馈送信号的主控设备中)。
图11示出了根据实施例的此类场景,其中音频信号从源设备(如媒体播放器或接收器等)发送到多个回放设备(如智能音箱)。
这些多个回放设备可分布于不同的房间,也可以在同一房间内协同播放。
因此,预处理只需执行一次,而无需在每个回放设备中分别处理。
在能够获取关于扬声器设置的信息(例如扬声器的类型、扬声器的位置)的系统中,该信息(LSMD-扬声器设置元数据)可反馈至处理器以引导实际的处理。
如果实际回放设置能够在播放反相信号时再现原本预期的听觉效果,则甚至可以利用这一点来关闭或绕过该处理。
类似地,在图12所描绘的根据实施例的示例性设备中(单个外壳中具有两个扬声器驱动器),可以针对该特定设备的规格和特性来调整频率选择处理。根据扬声器能力和两个扬声器之间的距离,反相信号的特定听觉效果可能得以重现,而在其他频率范围内,它们将导致信号内容的抵消。
由于回放设备是预先已知的,因此可以相应地调谐或调整处理参数。
(这种适配可以通过手动调节来实现,或基于播放系统的参数进行,例如可重现频率范围、扬声器之间的距离等。)
图13示出了根据实施例的、此前已介绍的条形音箱设备中所述处理(PFCP模块)的示例性应用。
对于多输入信号(例如多于两个)使用该方法可以通过以下方式进行::
●通过多次应用该处理,可以以并行方式(见图14)、串联/顺序方式(见图15)或两者混合(见图16);
●通过扩展处理器为多输入,并添加用于基于选择参数或控制参数来选择应被处理的两个输入通道的装置(见图17);
●计算多个通道及其不同组合之间的相干性与相关性,并修改处理器,使得从一个通道到多个其他通道进行相位对齐(见图18)。
所述方法可以有利地用于许多应用。
在实施例中,可以基于关于目标系统的设计、复杂度、性能或质量的准则或参数的考虑,来决定该功率补偿的应用。图19示出了无功率补偿的处理。
根据两个输入信号之间的相干性来计算分离掩码。在处理的可替代实施例中,分离掩码可以考虑额外信息,例如两个通道之间的增益差异和相位差异。在处理的优选实施例中,仅提取信号中需要进行相位调整以避免后续处理步骤中产生不利影响的部分。
在一些实施例中,仅在有限频率范围内应用信号分离可能是有利的,这意味着指定的频率范围之外的所有信号部分最终将归属于非相干部分,并且不受进一步处理的影响。
在处理的可替代实施例中,仅处理具有高度正相关(或负相关)的相干信号部分。在处理的另一个可替代实施例中,仅处理在(相位正确或相位反转)求和时具有高度潜在抵消的相干信号部分。
在仅对相干信号部分的部分进行相位对齐的可替代实施例中,前述两种相位对齐变体同样都是可行的。
在STFT域中计算的相干性值也可进行跨频率平滑。
在可替换的实施例中,分离/提取因子也可以沿频率被平滑。
根据其他实施例,在某些情况下,将所有相干内容都馈入第一信号部分并非理想选择。仅需对信号中那些在后续处理中可能产生不利影响的部分进行相位调整即可。
例如,在处理最终通过单个扬声器再现的信号的情况下,这些相关信号中的部分是反相部分。
(相干)信号中在求和时不会抵消的部分可以从分离掩码中移除。抵消的计算方式如下,其中分别是输入信号的平均自谱,是X和Y的复数和的平均自谱。
每帧中每个频率区间的计算出的抵消(以dB为单位)被转换为因子,该因子应用于分离掩码以得到修改后的分离掩码。对于较小量的抵消,分离掩码值被减小,即较少的信号进行相位对齐。
转换函数F可以采用图20所示的形状,其中导致抵消高于特定阈值的信号不从分离掩码中移除,而导致抵消低于该阈值的信号则逐渐更多地从分离掩码中移除。
尽管某些方面是在装置背景下进行描述的,但显然这些方面同样也对应于相应方法的描述,其中模块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤背景下描述的各个方面,也同样代表了相应装置中相应模块、部件或特征的描述。部分或全部方法步骤可由(或使用)硬件装置执行,例如微处理器、可编程计算机或电子电路。在一些实施例中,一个或多个最重要的方法步骤可由这样的装置执行。
根据特定的实现需求,本发明的实施例可以采用硬件实现、或采用软件实现、或部分采用硬件实现、或部分采用软件实现。该实现可通过使用数字存储介质来完成,例如软盘、DVD、蓝光光盘(Blu-Ray)、CD、ROM、PROM、EPROM、EEPROM 或 FLASH 存储器,其上存储有可被电子读取的控制信号,这些控制信号能够(或可与)可编程计算机系统协同工作,以执行相应的方法。因此,该数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括一种数据载体,其上具有电子可读取的控制信号,这些控制信号能够与可编程计算机系统协同工作,以执行本文所述方法之一。
通常,本发明的实施例可以实现为一种计算机程序产品,其包含程序代码,当该计算机程序产品在计算机上运行时,该程序代码用于执行所述方法之一。该程序代码例如可存储在机器可读的载体上。
其他实施例包括一种用于执行本文所述方法之一的计算机程序,该程序存储在机器可读载体上。
换句话说,因此,本发明方法的实施例是一种计算机程序,其包含程序代码,当该计算机程序在计算机上运行时,用于执行本文所述的方法之一。
因此,本发明方法的另一个实施例是一种数据载体(或数字存储介质,或计算机可读介质),其上记录有用于执行本文所述方法之一的计算机程序。该数据载体、数字存储介质或记录介质通常是‌有形的和/或‌非易失性的。
因此,本发明方法的另一个实施例是代表用于执行本文所述方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置成经由数据通信连接,例如经由互联网来传输。
其他实施例包括处理装置,例如计算机或可编程逻辑器件,其被配置成或适于执行本文所述方法之一。
其他实施例包括计算机,其上安装有用于执行本文所述方法之一的计算机程序。
根据本发明的其他实施例包括一种装置或系统,被配置为将用于执行本文所述方法之一的计算机程序传送(例如电子地或光学地)到接收器。例如,接收器可以是计算机、移动设备、存储设备等。该设备或系统可以例如包括用于将计算机程序传送到接收器的文件服务器。
在一些实施例中,可编程逻辑器件(例如现场可编程门阵列)可以用于执行本文所述方法的部分或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作,以便执行本文所述方法之一。通常,这些方法优选地由任何硬件设备来执行。
本文所述装置可以使用硬件装置、或使用计算机、或使用硬件装置和计算机的组合来实现。
本文所述方法可以使用硬件装置、或使用计算机、或使用硬件装置和计算机的组合来执行。
上述实施例仅仅是对本发明原理的说明。应当理解,本文所述的布置和细节的修改和变化对于本领域的其他技术人员来说将是显而易见的。因此,其意图仅由所附专利权利要求的范围进行限制,而不由本文实施例的描述和解释所呈现的具体细节进行限制。

Claims (66)

1.一种用于音频信号处理的装置,其中所述装置包括:
信号分离器(110),用于将至少两个音频输入信号中的每一个分离为第一信号部分和第二信号部分;
信号处理器(120),用于通过修改所述至少两个音频输入信号中的至少一个音频输入信号的第一信号部分,从所述至少两个音频输入信号中的每一个的第一信号部分获取所述至少两个音频输入信号中的每一个的相位对齐信号部分;其中所述信号处理器(120)被配置为通过将所述至少一个音频输入信号的第一信号部分与所述至少两个音频输入信号中的至少另外的音频输入信号的第一信号部分进行相位对齐来修改所述至少一个音频输入信号的第一信号部分;和
组合器(130),用于组合所述至少两个音频输入信号中的每一个的相位对齐信号部分和第二信号部分以获取至少两个音频输出信号。
2.根据权利要求1所述的装置,
其中所述信号分离器(110)被配置为根据相干性和/或相关性将所述至少两个音频输入信号中的每一个分离为第一信号部分和第二信号部分。
3.根据权利要求1所述的装置,
其中所述信号分离器(110)被配置为根据第一信号部分与所述至少两个音频输入信号中的一个或多个其他音频输入信号的信号部分的相干性和/或相关性,将所述至少两个音频输入信号中的每一个分离为第一信号部分和第二信号部分。
4.根据前述权利要求之一所述的装置,
其中所述信号分离器(110)被配置为将至少两个音频输入信号中的每一个分离为第一信号部分和第二信号部分,使得第一信号部分与所述至少两个音频输入信号中的一个或多个其他音频输入信号的信号部分相干。
5.根据前述权利要求之一所述的装置,
其中,为了获取所述至少两个音频输入信号中的每一个的相位对齐信号部分,所述信号处理器(120)被配置为修改所述至少一个音频输入信号的第一信号部分,并且被配置为不修改所述至少一个其他音频输入信号的第一信号部分。
6.根据权利要求1至4中之一所述的装置,
其中,为了获取所述至少两个音频输入信号中的每一个的相位对齐信号部分,所述信号处理器(120)被配置为修改所述至少两个音频输入信号中的每一个的第一信号部分。
7.根据前述权利要求之一所述的装置,
其中所述至少两个音频输入信号正好是两个音频输入信号,
其中所述至少一个音频输入信号正好是一个音频输入信号,
其中所述至少一个其他音频输入信号正好是一个其他音频输入信号,并且
其中所述至少两个音频输出信号正好是两个音频输出信号。
8.根据前述权利要求之一所述的装置,
其中所述信号处理器(120)被配置为在频域中将所述至少一个音频输入信号的第一信号部分与所述至少一个其他音频输入信号的第一信号部分进行相位对齐。
9.根据权利要求8所述的装置,
其中所述信号处理器(120)被配置为在频域中将所述至少一个音频输入信号的第一信号部分的至少一个频带的相位与所述至少一个其他音频输入信号的第一信号部分的所述至少一个频带的相位进行对齐。
10.根据权利要求8所述的装置,
其中所述信号处理器(120)被配置为在频域中将所述至少一个音频输入信号的第一信号部分的两个或更多个频带中的每一个的相位与所述至少一个其他音频输入信号的第一信号部分的所述两个或更多个其他频带中的每一个的相位进行对齐。
11.根据权利要求中8至10之一所述的装置,
其中所述装置还包括时频变换单元,用于将时域中表示的所述至少两个音频输入信号从时域变换到频域,并且
其中所述装置还包括频时变换单元,用于将频域中表示的所述至少两个音频输出信号从频域变换到时域。
12.根据权利要求11所述的装置,
其中所述时频变换单元被配置为进行短时傅立叶变换,以将所述至少两个音频输入信号从时域变换到频域,并且
其中所述频时变换单元被配置为进行短时逆傅立叶变换,以将所述至少两个音频输出信号从频域变换到时域。
13.根据前述权利要求之一所述的装置,
其中所述信号处理器(120)被配置为将所述至少一个音频输入信号的第一信号部分与所述至少一个其他音频输入信号的第一信号部分进行相位对齐,使得在所述至少一个音频输入信号的第一信号部分与所述至少一个其他音频输入信号的第一信号部分负相关的情况下,所述至少一个音频输入信号的相位对齐信号部分和所述至少一个其他音频输入信号的相位对齐信号部分在相位对齐之后具有相同的相位。
14.根据前述权利要求之一所述的装置,
其中所述信号处理器(120)被配置为将所述至少一个音频输入信号的第一信号部分与所述至少一个其他音频输入信号的第一信号部分进行相位对齐,使得在所述至少一个音频输入信号的第一信号部分与所述至少一个其他音频输入信号的第一信号部分正相关的情况下,所述至少一个音频输入信号的相位对齐信号部分和所述至少一个其他音频输入信号的相位对齐信号部分在相位对齐之后具有反转的相位。
15.根据前述权利要求之一所述的装置,
其中所述信号处理器(120)被配置为通过将所述至少一个其他音频输入信号的第一信号部分的相位信息复制到所述至少一个音频输入信号的第一信号部分,来将所述至少一个音频输入信号的第一信号部分与所述至少一个其他音频输入信号的第一信号部分进行相位对齐。
16.根据前述权利要求之一所述的装置,
其中所述信号处理器(120)被配置为通过将所述至少一个其他音频输入信号的第一信号部分的相位信息复制并相位反转到所述至少一个音频输入信号的第一信号部分,来将所述至少一个音频输入信号的第一信号部分与所述至少一个其他音频输入信号的第一信号部分进行相位对齐。
17.根据前述权利要求之一所述的装置,
其中所述信号处理器(120)被配置为将所述至少一个音频输入信号的第一信号部分与所述至少一个其他音频输入信号的第一信号部分进行相位对齐,而不改变所述至少一个音频输入信号的第一信号部分的幅度,也不改变所述至少一个其他音频输入信号的第一信号部分的幅度。
18.根据前述权利要求之一所述的装置,
其中所述至少两个音频输入信号中的每一个的第二信号部分在被所述组合器(130)组合时未被修改。
19.根据前述权利要求之一所述的装置,
其中所述至少两个音频输入信号包括一个或多个音频通道信号和/或一个或多个音频对象信号和/或一个或多个环绕立体声信号。
20.根据前述权利要求之一所述的装置,
其中所述装置包括功率补偿器,
使得所述至少两个音频输出信号的总信号能量对应于所述至少两个音频输入信号的总信号能量,或者
使得所述至少两个音频输出信号中的一个的信号能量对应于所述至少两个音频输入信号中的一个的信号能量,或者
使得所述至少两个音频输出信号中的每一个的信号能量对应于所述至少两个音频输入信号中的一个的信号能量。
21.根据权利要求20所述的装置,
其中所述功率补偿器被配置为按频率区间或按频带进行功率补偿。
22.根据前述权利要求之一所述的装置,
其中所述信号分离器(110)被配置为通过对所述音频输入信号的时频区间应用第一掩码值以获取所述第一信号部分的时频区间,并通过对所述音频输入信号的所述时频区间应用取决于所述第一掩码值的第二掩码值以获取所述第二信号部分的时频区间,来将至少两个音频输入信号中的每个音频输入信号分离为第一信号部分和第二信号部分。
23.根据权利要求22所述的装置,
其中所述信号分离器(110)被配置为将相同的第一掩码值应用于所述音频输入信号的相同频带的两个或更多个时频区间,以获取所述相同频带的第一信号部分的两个或更多个时频区间;和/或
其中所述信号分离器(110)被配置为将相同的第二掩码值应用于所述音频输入信号的相同频带的两个或更多个时频区间,以获取所述相同频带的第二信号部分的两个或更多个时频区间。
24.根据权利要求22或23所述的装置,
其中所述信号分离器(110)被配置为通过将所述第一掩码值与所述音频输入信号的所述时频区间相乘以获取第一信号部分的时频区间,并且通过将所述第二掩码值与所述音频输入信号的所述时频区间相乘以获取第二信号部分的时频区间,来将至少两个音频输入信号中的每个音频输入信号分离为第一信号部分和第二信号部分,其中所述第一掩码值呈现值v1,其中0≤v1≤1,并且其中所述第二掩码值v2=1-v1。
25.根据权利要求22至24之一所述的装置,
其中所述信号分离器(110)被配置为将相干信号部分分离为所述音频输入信号的第一信号部分和第二信号部分,使得所述第一信号部分仅包括所述至少两个音频输入信号中总和呈现大于阈值的潜在抵消(如相位正确或如相位反转)的相干信号部分。
26.根据权利要求25所述的装置,
其中所述信号分离器(110)被配置为针对所述音频输入信号的多个时频区间中的每一个更新所述第一掩码值和所述第二掩码值,使得第一信号部分仅包括所述至少两个音频输入信号中总和呈现大于阈值的潜在抵消的相干信号部分。
27.根据前述权利要求之一所述的装置,
其中所述信号分离器(110)被配置为根据多个时频区间中的每个时频区间的相干性,将至少两个音频输入信号中的每个音频输入信号分离为第一信号部分和第二信号部分,其中所述相干性是在时间上平均的。
28.根据权利要求27所述的装置,
其中所述信号分离器(110)被配置为根据在时间上平均的所述时频区间的自相关,并且根据在时间上平均的所述时频区间的互相关,来确定所述多个时频区间中的每个时频区间的相干性。
29.根据权利要求27或28所述的装置,
其中所述信号分离器(110)被配置为确定频率相关的绝对互谱相位,所述绝对互谱相位通过频率相关的均值汇总为单个绝对互谱相位值。
30.根据权利要求29所述的装置,
其中呈现值为0的单个频率相关的绝对互谱相位值指示正相关,
其中呈现值为0.5的单个频率相关的绝对互谱相位值指示不相关,并且
其中呈现值为1的单个频率相关的绝对互谱相位值指示负相关。
31.根据权利要求27至30之一所述的装置,
其中所述信号分离器(110)被配置为通过采用分离函数将至少两个音频输入信号中的每个音频输入信号分离为第一信号部分和第二信号部分,所述分离函数取决于多个时频区间中的时频区间的相干性。
32.根据权利要求31所述的装置,
其中所述分离函数将时频区间的幅度分离为相干幅度部分和非相干幅度部分。
33.根据权利要求31或32所述的装置,
其中所述分离函数是频率相关的。
34.根据权利要求31至33之一所述的装置,
其中所述分离函数取决于所述至少两个音频输入信号中的至少一个的信号属性。
35.根据权利要求31至34之一所述的装置,
其中所述分离函数取决于阈值。
36.根据权利要求35所述的装置,
其中所述阈值是频率相关的,使得所述信号分离器(110)被配置为,对于相同的相干性,与被分配给呈现较高频率的第一信号部分的幅度部分相比,将更大幅度部分分配给呈现较低频率的第一信号部分。
37.根据权利要求35或36所述的装置,
其中所述装置包括用于设置所述阈值的接口。
38.根据权利要求37所述的装置,
其中所述接口被配置为按频带单独地设置所述阈值或按时频区间单独地设置所述阈值。
39.根据前述权利要求之一所述的装置,
其中所述信号分离器(110)被配置为随时间平滑所述至少两个音频输入信号至第一信号部分和第二信号部分的分离。
40.根据权利要求39所述的装置,
其中所述信号分离器(110)被配置为根据起音时间和/或释放时间随时间平滑所述至少两个音频输入信号的分离,所述起音时间限定了当相干性增加时分离掩码的适配,所述释放时间限定了当相干性减小时分离掩码的适配。
41.根据权利要求40所述的装置,
其中所述信号分离器(110)被配置为针对正相关的信号与针对负相关的信号采用不同的起音时间;和/或
其中所述信号分离器(110)被配置为针对正相关的信号与针对负相关的信号采用不同的释放时间。
42.根据权利要求41所述的装置,
其中所述信号分离器(110)被配置为平滑所述起音时间随时间的变化;和/或
其中所述信号分离器(110)被配置为平滑所述释放时间随时间的变化。
43.根据权利要求41或42所述的装置,
其中所述信号分离器(110)被配置为在第一预定时间段内仅将所述起音时间改变最多至第一预定量;和/或其中信号分离器(110)被配置为在第二预定时间段内仅将所述起音时间改变最多至第二预定量;
其中所述第二预定量等于或不同于所述第一预定量;并且其中所述第二预定时间段等于或不同于所述第一预定时间段。
44.根据前述权利要求之一所述的装置,
其中所述装置被配置为仅处理所述至少两个音频输入信号的特定频带。
45.根据前述权利要求之一所述的装置,
其中所述装置被配置为仅处理所述至少两个音频输入信号中呈现特定信号特性或呈现特定属性的特定信号部分。
46.根据权利要求45所述的装置,
其中所述至少两个音频输入信号中的音频输入信号的所述特定信号特性或所述特定属性为至少以下之一:
存在语音,
存在声音部分,
所述音频输入信号是否为中心信号,
作为中心信号的所述音频输入信号是否从其他通道接收或得出,
所述音频输入信号是否为环境信号,
所述音频输入信号是否为通道信号,
所述音频输入信号是否为对象信号,
所述音频输入信号是否为环绕立体声信号,
所述音频输入信号的方向信息,
所述音频输入信号的声像定位信息,
所述音频输入信号是否包含瞬态信号部分。
47.根据前述权利要求之一所述的装置,
其中所述信号分离器(110)被配置为在时域中确定相关性指示符。
48.根据权利要求47所述的装置,
其中所述信号分离器(110)被配置为通过采用滤波器组并且通过进行特定频带相关性计算,来计算时域中的频率相关的相关性指示。
49.根据前述权利要求之一所述的装置,
其中所述装置还包括特定于设备的处理级,用于从所述至少两个音频输出信号生成单个扬声器输出。
50.根据权利要求1至48之一所述的装置,
其中所述装置被配置为将所述至少两个音频输出信号馈入三个或更多个扬声器中的每个扬声器。
51.根据权利要求1至48之一所述的装置,
其中所述装置被配置为接收关于扬声器设置的信息,
其中所述装置被配置为使用关于扬声器设置的所述信息来绕过或不绕过由所述信号分离器(110)、所述信号处理器(120)和所述组合器(130)进行的处理。
52.根据权利要求1至48之一所述的装置,
其中所述装置被配置为接收关于扬声器设置的信息,
其中所述装置被配置为使用关于扬声器设置的所述信息来绕过或不绕过由所述信号分离器(110)、所述信号处理器(120)和所述组合器(130)进行的一个或多个频带中的处理。
53.根据权利要求1至48之一所述的装置,
其中所述装置还包括特定于设备的处理级,用于使用关于两个扬声器的一个或多个能力的信息和/或关于两个扬声器之间距离的信息,从所述至少两个音频输出信号生成用于两个扬声器的两个扬声器馈送。
54.根据前述权利要求之一所述的装置,
其中所述至少两个音频输入信号是至少三个音频输入信号。
55.根据权利要求54所述的装置,
其中所述装置被配置为通过两次或更多次地应用所述信号分离器(110)、所述信号处理器(120)和所述组合器(130)的处理,来处理所述至少三个音频输入信号。
56.根据权利要求55所述的装置,
其中所述装置被配置为并行地和/或顺序地两次或更多次地应用所述信号分离器(110)、所述信号处理器(120)和所述组合器(130)的处理。
57.根据权利要求54所述的装置,
其中所述装置被配置为通过将处理器扩展到多个输入并且通过采用用于根据选择参数或控制参数来选择三个或更多个音频输入信号中的待处理的两个音频输入信号的装置,来处理所述至少三个音频输入信号。
58.根据权利要求54所述的装置,
其中所述装置被配置为通过计算至少三个信号中的两对或更多对信号之间的相干性和相关性,和/或通过计算其不同组合,来处理所述至少三个音频输入信号;并且所述信号处理器(120)被配置为通过使用所述至少三个音频输入信号中的一个音频输入信号的第一信号部分的相位对所述至少三个音频输入信号中的两个或更多个其他音频输入信号进行相位对齐。
59.根据前述权利要求之一所述的装置,
其中所述信号分离器(110)被配置为还根据至少两个信号之间的增益差异和/或相位差异,将所述至少两个音频输入信号分离为第一信号部分和第二信号部分。
60.根据前述权利要求之一所述的装置,
其中所述信号分离器(110)被配置为仅将至少两个音频输入信号中正相关程度大于阈值的相干信号部分分离为至少两个音频输入信号的第一信号部分。
61.根据前述权利要求之一所述的装置,
其中所述装置被配置为仅处理至少两个音频输入信号中负相关程度小于阈值的相干信号部分。
62.根据前述权利要求之一所述的装置,
所述装置被配置为对跨频率计算的相干性值进行平滑。
63.根据前述权利要求之一所述的装置,
其中所述装置被配置为沿频率对分离因子进行平滑。
64.根据前述权利要求之一所述的装置,
其中所述第一信号部分为相干信号部分,和/或其中所述第二信号部分为非相干信号部分。
65.一种用于音频信号处理的方法,其中所述方法包括:
将至少两个音频输入信号中的每一个分离为第一信号部分和第二信号部分;
通过修改所述至少两个音频输入信号中的至少一个音频输入信号的第一信号部分,从所述至少两个音频输入信号中的每一个的第一信号部分获取所述至少两个音频输入信号中的每一个的相位对齐信号部分;其中修改所述至少一个音频输入信号的第一信号部分是通过将所述至少一个音频输入信号的第一信号部分与所述至少两个音频输入信号中的至少另外的音频输入信号的第一信号部分进行相位对齐来进行的;和
组合所述至少两个音频输入信号中的每一个的相位对齐信号部分和第二信号部分,以获取至少两个音频输出信号。
66.一种计算机程序,当在计算机或信号处理器上执行时,用于实现权利要求65所述的方法。
CN202480058900.3A 2023-07-18 2024-07-16 用于音频信号处理以有利地修改音频信号的相干部分的装置和方法 Pending CN121844580A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP23186255 2023-07-18
EP23186255.8 2023-07-18
PCT/EP2024/070087 WO2025016998A1 (en) 2023-07-18 2024-07-16 Apparatus and method for audio signal processing to beneficially modify the coherent portions of audio signals

Publications (1)

Publication Number Publication Date
CN121844580A true CN121844580A (zh) 2026-04-10

Family

ID=87418707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202480058900.3A Pending CN121844580A (zh) 2023-07-18 2024-07-16 用于音频信号处理以有利地修改音频信号的相干部分的装置和方法

Country Status (2)

Country Link
CN (1) CN121844580A (zh)
WO (1) WO2025016998A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2838086A1 (en) * 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
US10904690B1 (en) * 2019-12-15 2021-01-26 Nuvoton Technology Corporation Energy and phase correlated audio channels mixer
US12413929B2 (en) * 2020-12-17 2025-09-09 Dolby Laboratories Licensing Corporation Binaural signal post-processing

Also Published As

Publication number Publication date
WO2025016998A1 (en) 2025-01-23

Similar Documents

Publication Publication Date Title
KR101984115B1 (ko) 오디오 신호 처리를 위한 다채널 다이렉트-앰비언트 분해를 위한 장치 및 방법
EP2545552B1 (en) Method and system for scaling ducking of speech-relevant channels in multi-channel audio
US8553895B2 (en) Device and method for generating an encoded stereo signal of an audio piece or audio datastream
JP6377249B2 (ja) オーディオ信号の強化のための装置と方法及び音響強化システム
CN115699172B (zh) 用于处理初始音频信号的方法和装置
JP7201721B2 (ja) 相関分離フィルタの適応制御のための方法および装置
MX2010011305A (es) Metodo y aparato para mantener la audibilidad del habla en audio con multiples canales con un impacto minimo en la experiencia envolvente.
CN108293165A (zh) 增强音场的装置和方法
US9820073B1 (en) Extracting a common signal from multiple audio signals
CA2835742C (en) Apparatus and method and computer program for generating a stereo output signal for providing additional output channels
WO2014166863A1 (en) Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
US20250182774A1 (en) Multichannel and multi-stream source separation via multi-pair processing
CN101341792A (zh) 使用两个输入声道合成三个输出声道的装置与方法
CN121844580A (zh) 用于音频信号处理以有利地修改音频信号的相干部分的装置和方法
US20260025116A1 (en) Adaptive stereo width control
CN118974824A (zh) 经由多对处理进行多声道和多流源分离
CN113473352A (zh) 双声道音频后处理的方法和装置
HK40004646A (zh) 用於缩混多声道音频信号的设备和方法
HK1219378B (zh) 用於音频信号处理的多通道直达-环境分解的设备和方法
HK1175881B (zh) 多通道音频中语音相关通道的缩放回避的方法和系统
HK1175881A (zh) 多通道音频中语音相关通道的缩放回避的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination