TWI835246B

TWI835246B - 麥克風系統及波束成形方法

Info

Publication number: TWI835246B
Application number: TW111130904A
Authority: TW
Inventors: 洪華駿; 陳致生; 賴學穎; 蔡玉寶; 陳宗樑
Original assignee: 英屬開曼群島商意騰科技股份有限公司
Priority date: 2022-02-25
Filing date: 2022-08-17
Publication date: 2024-03-11
Also published as: US20230276170A1; US12231844B2; TW202335513A

Abstract

本發明揭露一種麥克風系統，適用於一電子裝置，該電子裝置包含一可調機構，致使一麥克風陣列的幾何形狀產生變化，該系統包含：該麥克風陣列、一感應器以及一波束成形器。該麥克風陣列，包含多個麥克風，用以偵測聲音以產生多個音訊訊號；該感應器，用以偵測該電子裝置的機構變化以產生一感應輸出值；以及，一波束成形器，用以進行一組操作，包含：以一已受訓模組，根據該感應輸出值、於一個或更多期望方向上的一個或更多第一聲源以及於一個或更多非期望方向上的一個或更多第二聲源，對該些音訊訊號進行空間濾波，以產生始於該一個或更多第一聲源的一波束成形輸出訊號。

Description

麥克風系統及波束成形方法

本發明係有關於音訊處理，特別地，尤有關於一種具有幾何感知之波束成形器的麥克風系統及波束成形方法。

波束成形技術利用麥克風的空間分集(spatial diversity)所產生之通道間的時間差，來強化來自預期(desired)方向的訊號以及壓抑來自其他方向的不想要的訊號。Chen等人於美國專利第8,755,536B2號文獻中揭露一種自動波束成形瞄準(aim)的調整方法，而Forutanpour等人於美國專利第2012/0182429號公開文獻中揭露一種可實施波束成形的移動平台。上述二份公開文獻有以下三個共同特色：(1)包含具固定幾何形狀的麥克風陣列；(2)包含一方向感應器(orientation sensor)，以偵測麥克風陣列方向的改變或移動平台的移動；(3)根據該方向感應器的輸出，調整波束成形的瞄準。於上述二份公開文獻中，” 具固定幾何形狀的麥克風陣列”是能成功地調整波束成形的瞄準的先決條件。在本說明書中，「麥克風陣列的幾何形狀」一詞指的是該麥克風陣列中該些麥克風於三維空間中的物理或實體關係。然而，於一些電子裝置中，例如筆記型電腦或耳機麥克風(headset)，由於使用者調整裝置的機構，造成麥克風陣列的幾何形狀有可能產生改變，因此僅使用方向感應器不足以確保波束成形瞄準能夠成功。

因此，業界亟需一種具幾何感知波束成形器的麥克風系統，適用於一個具可調機構的電子裝置，無論裝置的機構如何調整或麥克風陣列的幾何形狀如何變化，上述麥克風系統都能持續保留/加強來自期望方向上一目標聲源集(T)的音訊訊號，以及壓抑來自非期望方向上一消除聲源集(C)的音訊訊號。

有鑒於上述問題，本發明的目的之一是提供一種麥克風系統，無論麥克風陣列的幾何形狀如何變化，都能持續保留/加強來自期望方向上一目標聲源集的音訊訊號，以及壓抑來自非期望方向上一消除聲源集的音訊訊號。

根據本發明之一實施例，係提供一種麥克風系統，適用於一電子裝置，該電子裝置包含一可調機構，致使一麥克風陣列的幾何形狀產生變化，該系統包含：該麥克風陣列、一感應器以及一波束成形器。該麥克風陣列，包含多個麥克風，用以偵測聲音以產生多個音訊訊號；該感應器，用以偵測該電子裝置的機構變化以產生一感應輸出值；以及，一波束成形器，用以進行一組操作，包含：以一已受訓模組，根據該感應輸出值、於一個或更多期望方向上的一個或更多第一聲源以及於一個或更多非期望方向上的一個或更多第二聲源，對該些音訊訊號進行空間濾波，以產生始於該一個或更多第一聲源的一波束成形輸出訊號。

本發明之另一實施例，係提供一種波束成形的方法，適用於一電子裝置之一麥克風系統，該電子裝置包含一可調機構，其中該可調機構致使一麥克風陣列的幾何形狀產生變化，該方法包含：以該麥克風陣列之多個麥克風，偵測聲音以產生多個音訊訊號；以一感應器，偵測該電子裝置的機構變化以產生一感應輸出值；以及，以一已受訓模組，根據該感應輸出值、於一個或更多期望方向上的一個或更多第一聲源以及於一個或更多非期望方向上的一個或更多第二聲源，對該些音訊訊號進行空間濾波操作，以產生始於該一個或更多第一聲源的一波束成形輸出訊號。

茲配合下列圖示、實施例之詳細說明及申請專利範圍，將上述及本發明之其他目的與優點詳述於後。

在通篇說明書及後續的請求項當中所提及的「一」及「該」等單數形式的用語，都同時包含單數及複數的涵義，除非本說明書中另有特別指明。在通篇說明書中，具相同功能的電路元件使用相同的參考符號。

本發明的特色之一是於一個具可調機構的電子裝置中，根據一感應器輸出(代表一麥克風陣列的一對應幾何形狀)、位於期望方向上的目標聲源集(T)及位於非期望方向上的消除聲源集(C)(將於後面說明)，利用一已受訓的神經網路，對來自該麥克風陣列的多個麥克風訊號，進行空間濾波操作，以產生始於該目標聲源集(T)之一波束成形輸出訊號。本發明的另一個特色是利用上述感應器輸出及該些麥克風設置於上述電子裝置的位置，以計算該麥克風陣列目前的幾何形狀。本發明的另一個特色是以多個聲源(分為上述目標聲源集(T)及消除聲源集(C))、不同的感應輸出值(或不同幾何形狀的麥克風陣列) 以及一訓練資料集(係有關於始於上述目標聲源集(T)及消除聲源集(C)之無噪音單麥克風音訊資料311a及有噪音單麥克風音訊資料311b之組合)來訓練上述已受訓的神經網路。因此，無論麥克風陣列的幾何形狀如何改變，本發明的麥克風系統都能持續保留/加強來自該目標聲源集(T)的音訊訊號，以及壓抑來自該消除聲源集(C)的音訊訊號。因此，根據本發明，可有效改善由一電子裝置內的麥克風系統所輸出的音訊訊號的音訊品質。

在通篇說明書及後續的請求項當中所提及的相關用語定義如下，除非本說明書中另有特別指明。「可調機構」一詞指的是一種一電子裝置內的物理機構，設計給使用者作調整，致使一電子裝置內的麥克風陣列的幾何形狀產生變化。例如，筆記型電腦的可調機構指的是一轉軸(hinge)，用來設定螢幕及C面間的角度；耳機麥克風的可調機構指的是一夾緊式頭帶(clamping headband)，當使用者帶上該耳機麥克風時，通常導致位在二個耳罩(earcup)周遭的麥克風陣列的幾何形狀發生變化；可穿戴式揚聲器(wearable speaker)或頸部揚聲器的可調機構指的是一夾緊式或可調式頸帶(neckband)，當使用者帶上該可穿戴式揚聲器時，通常導致位在二個前端周遭的麥克風陣列的幾何形狀發生變化。各具可調機構的電子裝置與一適當的感應器一起運作，以偵測該電子裝置的機構變化，其對應至該麥克風陣列的不同幾何形狀變化。電子裝置一般屬於3C電子產品，為電腦、通訊及消費電子之組合，業界一般又稱之為”資訊裝置(information appliances)”。至於”具可調機構”的電子裝置包含但不受限於，筆記型電腦、耳機麥克風以及可穿戴式揚聲器(或頸部揚聲器)。

圖1係根據本發明，顯示麥克風系統之一方塊圖。參考圖1，本發明麥克風系統100，適用於一個具可調機構的電子裝置(圖未示)，包含一麥克風陣列110、一感應器120以及一具幾何感知功能(geometry-aware)的波束成形器130。該麥克風陣列110包含Q個麥克風111-11Q，其中Q＞=2。該感應器120用來偵測該電子裝置的機構變化以產生一感應輸出值Sr，其中，通常是使用者調整該可調機構會造成上述的機構變化。該具幾何感知功能的波束成形器130是以神經網路為基礎(neural network-based)的波束成形器。根據該感應輸出值Sr、位於期望方向上的目標聲源集(T)及位於非期望方向上的消除聲源集(C)，利用一已受訓的模組(例如已受訓的神經網路360T)，對來自該麥克風陣列110的多個輸入音訊訊號b ₁[n]-b _Q[n]，進行(1)空間濾波以及去噪(denoising)二種操作或(2)僅進行空間濾波一種操作，以產生始於該目標聲源集(T)之一有噪音或無噪音之波束成形輸出音訊訊號u[n]，其中n表示離散時間索引。

該麥克風陣列110的一麥克風座標集合定義如下： M={M ₁, M ₂,…., M _Q}，其中相對於該電子裝置之一參考點，麥克風M _i的座標= (x _i, y _i, z _i)，以及1＜=i=Q。假設一個聲源集合，以及 d(s _j, M _i) 為一個函數，代表從一聲源 s _j 至麥克風M _i的時間延遲，則有關該聲源 s _j 的一個時間延遲集合定義如下：dd( s _j )= ，而有關該聲源集合 S 的一個時間延遲集合定義如下：，其中代表三度空間、1＜=j＜=L、、以及L代表聲源的數目。於本說明書中，符號「~」代表”等同(equivalent)”的意思。例如，若以及，則使得，其中 c代表一時間延遲偏差。條件” ”表示：若第一時間延遲集合(即dd( x ))與第二時間延遲集合(即dd( y))間的差異等於該時間延遲偏差c，則將二個聲源 x及 y視為等同。因此，可定義等同類別為。相較於 D(S, M)，更滿足上述等同條件，因此，由於上述聲源集合 S 中多個聲源的時間延遲集合間的差異等於該時間延遲偏差 c，故符號包含(在上述聲源集合 S 中)的該些聲源被視為等同。

在通篇說明書及後續的請求項當中所提及的相關用語定義如下，除非本說明書中另有特別指明。「聲源」一詞指的是任何會發出音訊訊息的東西，包含：人類、動物或物體。再者，相對於該電子裝置上之一參考點(例如：圖2B的原點O _g或二個麥克風111-112之間的中點)，該聲源可位在三維空間的任何位置。「目標聲源集(T)」一詞指的是位在期望方向上或具有期望座標的一組聲源，而且來自該目標聲源集(T)的音訊訊號需要被保留或加強。「消除聲源集(C)」一詞指的是位在非期望方向上或具有非期望座標的一組聲源，而且來自該消除聲源集(C)的音訊訊號需要被抑制或消除。一般而言，該目標聲源集(T)及該消除聲源集(C)是可以分得開的，故可以定義或劃出該目標聲源集(T)及該消除聲源集(C)之間的界線(滿足” ”的要求)。具體而言，每當該感應輸出值Sr代表該裝置機構被調整或該麥克風陣列的幾何形狀有變化，就需要重劃該目標聲源集(T)及該消除聲源集(C)之間的界線(以滿足” ”的要求)。

圖2A例示一筆記型電腦的四個面(A面(或背面)201、B面(或正面)202、C面(或頂面)203、D面(或底面)204)。若該電子裝置是一筆記型電腦，則該Q個麥克風111~11Q會分別設在螢幕框邊的周圍(即A面201或B面202)以及C面203(除了鍵盤及觸控板區之外)上。請注意，至少一麥克風是設在C面203，而其他麥克風則設在不同於C面的側面(即A面或B面)。以下說明圖2B-2D，並假設該電子裝置是一筆記型電腦20，包含有二個麥克風111-112的麥克風陣列110(Q=2)及一感應器120，且感應器120係以一陀螺儀(gyroscope)250來實施並設在筆記型電腦20的A面201或B面202上。筆記型電腦20中的調整機制(圖未示)，例如一轉軸，係允許使用者設定或調整螢幕21及C面間的角度。然而，應了解的是上述的假設僅是示例而非本發明之限制。此外，由於陀螺儀250的結構及運作方式已為業界所熟知，在此不予贅述。

圖2B例示一筆記型電腦的螢幕相對於水平線H往上傾斜角。參考圖2B，二個麥克風111~112分別設在B面202的上邊緣以及C面的右邊緣，以及陀螺儀250用來偵測筆記型電腦螢幕210相對於水平線H的角度。假設三個聲源s ₁-s ₃屬於該目標聲源集( T)(即 ) 以及二個聲源s ₄-s ₅屬於該消除聲源集( C)(即 )，具幾何感知功能的波束成形器130用來定義對應該目前角度之一目前界線220(滿足” ”的要求)，以加強/保留來自該三個聲源s ₁-s ₃的第一音訊訊號，以及壓抑/消除來自該二個聲源s ₄-s ₅的第二音訊訊號。

圖2C例示電腦螢幕210從角往上傾斜至 ’角。參考圖2C，當螢幕210從角往上傾斜至 ’角( ’)時，上述的轉軸(圖未示)使得麥克風座標集合從 M改變至 M’，其中 M’=f(ED, ’)以及該座標函數f(ED, ’)是根據目前角度 ’以及該麥克風111至一原點O _g(於筆記型電腦20上的一參考點)之間的歐氏距離(Euclidean distance，ED)，利用三角函數計算一目前麥克風座標集合 M’。例如，假設該麥克風111至原點O _g之間的歐氏距離ED=30公分且 =60度，麥克風陣列110的麥克風座標集合 M計算如下： M=f(ED, )= {(ED*sin(60 ^o), 0, ED*cos(60 ^o)), (-15cm, 0, 0)}={(15cm, 0, 25.98cm), (-15cm, 0, 0)})。當陀螺儀250偵測到螢幕210從角(=60度)往上傾斜至 ’角(=90度) ( ＞ )時，麥克風陣列110的麥克風座標集合從 M改變為 M’，其中 M‘=f(ED, 90 ^o)= {(ED*sin(90 ^o), 0, ED*cos(90 ^o)), (-15cm, 0, 0)}={(0, 0, 30cm), (-15cm, 0, 0)}，請注意，麥克風111的座標不變。在圖2C的例子中，在螢幕210從角度 (=60度)往上傾斜至 ’(=90度)之後，若根據先前的界線220，就會將聲源s ₂錯誤地歸類為該消除聲源集(C)，亦即，。為避免此問題，只要發現 ’不等於，該具幾何感知功能的波束成形器130就需要重新決定該目標聲源集(T)及該消除聲源集(C)之間的一條新的界線230(滿足” ”的要求)，如圖2D所示。一旦決定了該新的界線230，該具幾何感知功能的波束成形器130就會正確地將聲源s ₂歸類為該目標聲源集(T)，並將來自該聲源s ₂的音訊訊號適當地加強或保留。請注意，圖2B-2C的原點O _g可以定義在不同位置，例如：圖2C的D面204的最左邊。因此，根據原點O _g的不同位置，上述座標函數f(ED, )可能隨之改變。

回到圖1，該具幾何感知功能的波束成形器130可以一軟體程式、一客製化電路(custom circuit)、或該軟體程式及該客製化電路之組合來實施。例如，該具幾何感知功能的波束成形器130可以一繪圖處理單元(graphics processing unit，GPU)、一中央處理單元(central processing unit，CPU)、以及一處理器之至少其一以及至少一儲存裝置來實施。上述儲存裝置儲存多個指令供該GPU、該CPU以及該處理器之至少其一執行：圖5的方法中所有的步驟，或圖3A-3C中該具幾何感知功能的波束成形器130/130I/130T之所有的操作。圖5之方法容後敘明。再者，熟悉本領域技術人士應理解，任何可執行該具幾何感知功能的波束成形器130之操作(或圖5的方法中所有的步驟)的系統，均落入本發明之範圍且未脫離本發明實施例之精神。

圖3A係根據本發明一實施例，顯示於一訓練階段之麥克風系統300T之示意圖。於圖3A的實施例中，一訓練階段之麥克風系統300T，適用於一個具可調機構的筆記型電腦(圖未示)，包含一麥克風111以及一具幾何感知功能的波束成形器130T。於訓練階段，僅使用一麥克風111以記錄音訊資料或訊號，而具幾何感知功能的波束成形器130T則以一處理器350及二個儲存裝置310及320來實施。儲存裝置310儲存軟體程式313的指令及程式碼，供該處理器350執行，致使該處理器350運作有如該具幾何感知功能的波束成形器130/130T/130I。

一實施例中，一神經網路模組30T/30I，由軟體實施並且駐存於儲存裝置320中，包含一特徵提取器330、一神經網路360以及一損失函數(loss function)部370。於另一實施例中，神經網路模組30T/30I，係由硬體(圖未示)實施，例如離散邏輯電路(discrete logic circuit)、特殊應用積體電路(application specific integrated circuits，ASIC) 、可程式邏輯閘陣列(programmable gate arrays，PGA) 、現場可程式化邏輯閘陣列(field programmable gate arrays，FPGA)等等。

本發明神經網路360可以任何已知的神經網路來實施。和監督式學習(supervised learning)有關的各種不同機器學習技術都可用來訓練該神經網路360的模組。用來訓練該神經網路360的監督式學習技術包含，但不受限於，隨機梯度下降法(stochastic gradient descent ，SGD)。於以下的說明中，神經網路360利用一訓練資料集以監督式設定方式來運作，其中該訓練資料集包含多個訓練樣本，且各訓練樣本包含配成對的訓練輸入資料(例如圖3A的輸入音訊訊號b ₁[n]至b _Q[n]之各音框的音訊資料)以及訓練輸出資料(實際值(ground truth)) (例如圖3A的輸出音訊訊號h[n]之各音框的音訊資料)。

該神經網路360利用上述訓練資料集來學習或估測該函數f(即已受訓的模組360T)，再利用反向傳播(backpropagation)演算法及代價函數(cost function)來更新模組的權值。反向傳播演算法重複地計算該代價函數相對於各權值及偏移量(bias)的梯度(gradient)，再以相反於該梯度的方向更新權值及偏移量，以找出一局部最小值。該神經網路360學習的目標是在給定上述訓練資料集的情況下，最小化該代價函數。

在訓練階段之前，處理器350透過麥克風111，分別接收一批無噪音(或乾淨的)單麥克風時域原始音訊資料311a及一批有噪音的單麥克風時域原始音訊資料311b，再分別儲存至儲存裝置310。有關有噪音的單麥克風時域原始音訊資料311b，係記錄不同的噪音源，包含動物、白噪音、電腦風扇、群眾、汽車、工地等等。透過執行儲存於儲存裝置310之任何已知模擬工具的軟體313，例如Pyroomacoustics，處理器350運作有如一資料擴增(augmentation)引擎，以根據無噪音及有噪音的單麥克風時域原始音訊資料311a及311b，建立不同模擬場景，包含：L個聲源(分為一目標聲源集(T)及一消除聲源集(C))、Q個麥克風、電腦螢幕210的不同角度以及不同聲音環境，其中0 ^o＜= ＜=180 ^o。資料擴增引擎350的主要目的是幫助神經網路360來概括不同的情境，使神經網路360能運作於不同聲音環境與不同的麥克風幾何形狀(例如不同角度 )。具體而言，透過執行Pyroomacoustics及根據不同角度，資料擴增引擎350分別將無噪音及有噪音的單麥克風時域原始音訊資料311a及311b轉換成始於該目標聲源集(T)及該消除聲源集(C)的一個或更多聲源的無噪音Q個麥克風時域擴增音訊資料及有噪音Q個麥克風時域擴增音訊資料，之後再混合上述無噪音Q個麥克風時域擴增音訊資料及有噪音Q個麥克風時域擴增音訊資料，以產生及儲存”混合的”Q個麥克風時域擴增音訊資料312至儲存裝置310。特別地，混合不同強度的有噪音Q個麥克風時域擴增音訊資料與無噪音的Q個麥克風時域擴增音訊資料以產生該”混合的”Q個麥克風時域擴增音訊資料的大範圍SNR。在訓練階段中，處理器350使用該”混合的”Q個麥克風時域擴增音訊資料312當作上述訓練資料集中該些訓練樣本的訓練輸入資料(即b ₁[n]至b _Q[n])，以及對應地，由始於該目標聲源集(T)無噪音及有噪音的單麥克風時域原始音訊資料311a及311b之組合所轉換而來的無噪音及有噪音的時域輸出音訊資料被當作上述訓練資料集中該些訓練樣本的訓練輸出資料(即h[n])。

圖3B係根據本發明一實施例，顯示特徵提取器330的示意圖。參考圖3B，特徵提取器330包含Q個量值與相位計算單元331~33Q以及一內積(inner product)部33，用來從Q個輸入音訊流(b ₁[n]至b _Q[n])的各音框之音訊資料的複數值(complex-valued)取樣點，提取出特徵(例如：量值(magnitude)、相位及相位差)。

於各量值與相位計算單元33j中，先利用一滑動窗(sliding window)，沿著時間軸，將輸入音訊流b _j[n]分成多個音框(frame)，致使各音框間互相重疊以減少邊界的偽像(artifact)，之後，以快速傅立葉轉換(Fast Fourier Transform，FFT)將各音框的時域音訊資料轉換成頻域的複數值資料，其中1＜=j＜=Q以及n表示離散時間索引。假設各音框的取樣點數(或FFT尺寸)等於N、各音框的持續時間等於Td且各音框以Td/2的時間彼此重疊，量值與相位計算單元33j分別將輸入音訊流b _j[n]分割成多個音框，並計算對應輸入音訊流b _j[n]的目前音框i內音訊資料的FFT，以產生具有N個複數值取樣點(F _1,j(i)~F _N,j(i))及頻率解析度等於fs/N(=1/Td)的目前頻譜代表式(spectral representation) Fj(i)，其中，1＜=j＜=Q、fs表示音訊流b _j[n]的取樣頻率、各音框對應至音訊流b _j[n]的不同時間區段、以及i代表輸入或輸出音訊流b _j[n]/u[n]/h[n]的音框索引。接著，量值與相位計算單元33j根據各該N個複數值取樣點(F _1,j(i)~F _N,j(i))的長度及反正切(arctangent)函數，計算各該N個複數值取樣點(F _1,j(i)~F _N,j(i))的一量值與一相位，以產生對應於該目前頻譜代表式Fj(i)的一個具有N個量值元素的量值頻譜(m j(i)=m _1,j(i),…, m _N,j(i))以及一個具有N個相位元素的相位頻譜(P j(i)=P _1,j(i),…, P _N,j(i))。然後，內積部33對任二個相位頻譜P j(i)及P k(i)的各該N個正規化(normalized)複數值取樣點配對(sample pair)，分別計算內積以產生R個相位差頻譜(pd l(i)=pd _{1,
l}(i),…, pd _{N,
l}(i))，且各相位差頻譜pd l(i)具有N個元素，其中1＜=k＜=Q、 j k、1＜= l＜=R、以及上述Q個麥克風中有R對麥克風。最後，上述Q個量值頻譜m j(i)、Q個相位頻譜P j(i)以及R個相位差頻譜pd l(i)被視為一特徵向量fv(i)，並饋入至該神經網路360/360T。一較佳實施例中，各音框的持續時間Td大約32毫秒。然而，上述持續時間Td僅是示例，而非本發明之限制，實際實施時，也能使用其他的持續時間。

在訓練階段中，神經網路360接收上述特徵向量fv(i)(包含上述Q個量值頻譜m j(i)、Q個相位頻譜P j(i)以及R個相位差頻譜pd l(i))後，產生對應的網路輸出資料，包含一時域波束成形輸出音訊流u[n]中目前音框i的N個第一取樣值。另一方面，對於上述訓練資料集的該些訓練樣本中，與上述訓練輸入資料(即Q個訓練輸入音訊流(b ₁[n]至b _Q[n])的目前音框i中的Q*N個輸入取樣值)配成對的訓練輸出資料(實際值)，包含一訓練輸出音訊流h[n]的目前音框i中的N個第二取樣值，且處理器350將上述訓練輸出資料h[n]傳送至損失函數部370。若神經網路360被訓練為僅進行空間濾波操作，處理器350輸出的訓練輸出音訊流h[n]將會是有噪音的時域輸出音訊資料(是由始於該目標聲源集(T)的有噪音的單麥克風時域原始音訊資料311b所轉換而來的)。若神經網路360被訓練為進行空間濾波及去噪操作，處理器350輸出的訓練輸出音訊流h[n]將會是無噪音的時域輸出音訊資料(是由始於該目標聲源集(T)的無噪音的單麥克風時域原始音訊資料311a所轉換而來的)。之後，損失函數部370根據上述網路輸出資料及訓練輸出資料之間的差距，來調整神經網路360的參數(如權值)。一實施例中，神經網路360係以一深度複合U網(deep complex U-net)來實施，且對應地，於該損失函數部370所實施的損失函數為加權訊號失真比損失(weighted-source-to-distortion ratio loss)，如Choi等人於2019年ICRL所揭露的會議文獻“Phase-aware speech enhancement with deep complex U-net”。須注意的是，上述深度複合U網及加權訊號失真比損失僅作為示例，而非本發明之限制。實際實施時，可使用其他的神經網路及損失函數，此亦落入本發明之範圍。最後，神經網路360完成訓練，以致於當神經網路360處理與上述訓練輸出資料(即上述N個第二取樣值)配成對的上述訓練輸入資料(即上述Q*N個輸入取樣值)時，神經網路360產生的網路輸出資料(即上述N個第一取樣值)將會盡可能地接近及匹配上述訓練輸出資料。

圖3C係根據本發明一實施例，顯示於一推斷階段之麥克風系統300I之示意圖。於圖3C的實施例中，於一推斷階段之麥克風系統300I，適用於一個具可調機構的筆記型電腦(圖未示)，包含Q個麥克風111-11Q、一角度偵測單元380以及一具幾何感知功能的波束成形器130I。如圖2B-2D所示，角度偵測單元380(如陀螺儀250)係藉由重力、磁力、機構轉換等等，來量測筆記型電腦螢幕210相對於水平線H的角度。角度偵測單元380包含但不受限於，陀螺儀。於推斷階段，僅軟體程式313駐存於儲存裝置310中；神經網路模組30I由軟體實施並且駐存於儲存裝置320中，包含該特徵提取器330及一已受訓的神經網路360T。已受訓的神經網路360T根據一目前角度，利用上述座標函數f(ED, )來計算目前麥克風座標集合 M，再決定該目標聲源集(T)及該消除聲源集(C)之間的一目前界線(滿足” ”的要求)(例如：圖5的步驟S506-S508)。同時，特徵提取器330從Q個輸入音訊流(b ₁[n]至b _Q[n])的目前音框i的音訊資料的Q個目前頻譜代表式F1(i)- FQ(i)中，提取出一特徵向量fv(i)(包含上述Q個量值頻譜m j(i)、Q個相位頻譜P j(i)以及R個相位差頻譜pd l(i))。已受訓的神經網路360T根據上述目前界線，對上述特徵向量fv(i)進行空間濾波操作(包含或不包含去噪操作)，以產生始於該目標聲源集(T)之波束成形輸出音訊流u[n]。之後，當已受訓的神經網路360T從角度偵測單元380接收到一目前角度 ’係不同於一先前角度時，立即為後續的輸入音訊流b ₁[n]-b _Q[n]，更新目前麥克風座標集合 M與目前界線。

以上例子及實施例的說明皆有關於與該角度偵測單元380(或一陀螺儀)一起運作的筆記型電腦。另一實施例中，一筆記型電腦可與不同類型的感應器一起運作，例如：業界所熟知的光學雷達感應器；依此，光學雷達感應器402可設在筆記型電腦的B面202或C面203，以偵測C面203與螢幕210之間的距離是否有變化。如圖4A-4B的例子所示，光學雷達感應器402係設在筆記型電腦的C面203，以量測光學雷達感應器402與螢幕210之間的距離。在訓練階段中，類似圖3A的例子，係以L個聲源(分為上述目標聲源集(T)及消除聲源集(C))、光學雷達感應器402與螢幕210之間不同的距離以及一訓練資料集(係有關於始於上述目標聲源集(T)及消除聲源集(C)之無噪音單麥克風音訊資料311a及有噪音單麥克風音訊資料311b之組合)，來訓練上述神經網路360。在推斷階段，類似圖3C的例子，以該光學雷達感應器402替換掉角度偵測單元380，因此是光學雷達感應器402傳送一目前距離至該已受訓的神經網路360T，至於其他元件則進行類似操作。具體而言，在推斷階段，首先，光學雷達感應器402量測光學雷達感應器402與螢幕210之間的一目前距離a，接著，根據該目前距離a、光學雷達感應器402與原點O _g之間固定的x軸距離、以及光學雷達感應器402相對於水平線H朝向螢幕210的固定角度 2，已受訓的神經網路360T計算螢幕210相對於水平線H的角度 1。之後，已受訓的神經網路360T根據角度 1，利用上述座標函數f(ED, )來計算目前麥克風座標集合 M，再決定該目標聲源集( T)及該消除聲源集( C)之間的一目前界線(滿足” ”的要求)(例如：圖5的步驟S506-S508)。接著，已受訓的神經網路360T根據上述目前界線，對Q個輸入音訊流(b ₁[n]至b _Q[n])的特徵向量fv(i)進行空間濾波操作(包含或不包含去噪操作)，以產生始於該目標聲源集(T)之波束成形輸出音訊流u[n]。之後，當已受訓的神經網路360T從光學雷達感應器402接收到一目前距離a’不同於一先前距離a時，立即為後續的輸入音訊流b ₁[n]-b _Q[n]，更新目前麥克風座標集合 M與目前界線。

圖5係根據本發明一實施例，顯示一波束成形方法的流程圖。以下，根據圖1、2B-2D、3C及5，說明本發明波束成形方法，係適用於一電子裝置內的麥克風系統100。該電子裝置包含一可調機構(圖未示)。同時，假設以一訓練資料集、L個聲源(分為上述目標聲源集(T)及消除聲源集(C))、以及不同幾何形狀的麥克風陣列，來訓練上述已受訓的神經網路360T。其中，上述訓練資料集包含多個訓練樣本，而各訓練樣本包含配成對的訓練輸入資料以及訓練輸出資料(實際值)。

步驟S502：於系統初始化後，由一感應器120輸出一目前感應輸出值Sr ₀。例如，圖3C的角度偵測單元380輸出一目前角度。

步驟S504：將參數值Sr設定等於Sr ₀。

步驟S506：由已受訓的神經網路360T，根據該目前感應輸出值Sr、該電子裝置中一參考點的位置以及Q個麥克風設在該電子裝置的位置，計算一目前麥克風座標集合 M。圖2B的例子中，根據上述座標函數f(ED, )、原點O _g(即位在筆記型電腦20之A/B面及C/D面的交叉點上的參考點)及輸入角度 (即目前感應輸出值Sr)，計算目前麥克風座標集合 M。換言之，目前麥克風座標集合 M的計算取決於感應器120的物理特性、參考點O _g在該電子裝置的位置以及該Q個麥克風設在該電子裝置的位置。

步驟S508：由已受訓的神經網路360T，根據該目前麥克風座標集合 M，決定該目標聲源集(T)及該消除聲源集(C)之間的一目前界線，亦即滿足” ”的要求。另一實施例中，由於多個麥克風座標集合 M及多個感應輸出值Sr(例如多個角度 )之間有一對一的對應性，因此無須計算目前麥克風座標集合 M，依此，可捨去步驟S506，並修改步驟S508如下：由已受訓的神經網路360T，根據該參數值(即目前感應輸出值)Sr，決定該目標聲源集(T)及該消除聲源集(C)之間的一目前界線。由於步驟S506非必須，故在圖5以虛線矩形來表示。

步驟S510：由麥克風陣列110的Q個麥克風111-11Q，偵測聲音以輸出Q個音訊流b ₁[n]-b _Q[n]。

步驟S512：由特徵提取器330從Q個音訊流b ₁[n]-b _Q[n]中提取出一特徵向量fv(i)。如圖3B的相關說明，特徵提取器330根據該Q個音訊流b ₁[n]-b _Q[n]的目前音框i的音訊資料的Q個目前頻譜代表式F1(i)- FQ(i)，提取出Q個量值頻譜m j(i)、Q個相位頻譜P j(i)以及R個相位差頻譜pd l(i))，當作該Q個音訊流b ₁[n]-b _Q[n]的目前音框i的一特徵向量fv(i)。

步驟S514：由已受訓神經網路360T根據上述目前界線，對上述特徵向量fv(i)進行空間濾波操作(包含或不包含去噪操作)，以產生始於該目標聲源集(T)之波束成形輸出音訊流u[n]的音框i的音訊資料。舉例而言，若僅進行空間濾波操作，則波束成形輸出音訊流u[n]將會是始於該目標聲源集(T)之”有噪音”的音訊訊號。若進行空間濾波及去噪操作，則波束成形輸出音訊流u[n]將會是始於該目標聲源集(T)之無噪音(乾淨的)音訊訊號。

步驟S516：決定感應器120目前的感應輸出值Sr ₁是否等於先前感應輸出值Sr。若是，跳到步驟S514；否則，跳到步驟S518。

步驟S518：將參數值Sr設定等於Sr ₁。然後，跳到步驟S506。

雖然圖5中是以分離的步驟區塊來繪示，但根據期望的實施方式，步驟區塊(S502-S514)可以再進一步再分割、合併為較少的步驟區塊或刪除其中之一個或更多的步驟區塊。

麥克風陣列110的Q個麥克風111-11Q可以是，例如，全向性(omni-directional)麥克風、雙向性(bi-directional)麥克風、指向性(directional)麥克風、或其組合。麥克風陣列110的Q個麥克風111-11Q可以用數位或類比的微機電系統(MicroElectrical-Mechanical System)麥克風來實施。請注意，當麥克風陣列110包含有指向性或雙向性麥克風時，電路設計者必須確認：無論麥克風陣列110的幾何形狀如何調整，該指向性或雙向性麥克風都必須能接收到始於該目標聲源集( T)之音訊訊號。對於耳機麥克風，麥克風陣列110的Q個麥克風111-11Q分別設在二個耳罩的周遭，例如二個耳罩上或被包覆在二個麥克風接臂(arm)(連接至上述二個耳罩)的二個前端；對於可穿戴式揚聲器或頸部揚聲器，麥克風陣列110的Q個麥克風111-11Q則分別嵌入二個前端。

以上提供多個實施例以說明本發明之原理及精神，然而，上述實施例可被適度調整，且本發明之原理亦適用於其他的電子裝置。舉例而言，耳機麥克風、或可穿戴式揚聲器、或頸部揚聲器，都能與一旋轉電位計(rotary potentiometer)(當作該感應器120)一起運作。由於旋轉電位計的結構及運作方式已為業界所熟知，在此不予贅述。一般而言，在耳機麥克風中，該旋轉電位計係設在該夾緊式頭帶的中間點(如：使用者的頭頂上)，而在可穿戴式揚聲器(或頸部揚聲器)中，該旋轉電位計係設在該可調式或夾緊式頸帶的中間點(位在頸部後方)。須注意的是，本發明不受限於上述的電子裝置及感應器，而可適用於目前或將來發展之電子裝置及感應器，只要感應器能偵測到該電子裝置內的機構變化(相當於麥克風陣列110幾何形狀的改變)。此外，在未脫離本發明所揭示之精神下，上述實施例中的元件的排列或設置方式，可以不同於上述揭露內容或圖式來實施。

上述僅為本發明之較佳實施例而已，而並非用以限定本發明的申請專利範圍；凡其他未脫離本發明所揭示之精神下所完成的等效改變或修飾，均應包含在下述申請專利範圍內。

20 筆記型電腦 30I、30T 神經網路模組 100 麥克風系統 110 麥克風陣列 111-11Q 麥克風 120 感應器 130、130T、130I 具幾何感知功能的波束成形器 201 A面(或背面) 202 B面(或正面) 203 C面(或頂面) 204 D面(或底面) 220、230 界線 250 陀螺儀 300I 於一推斷階段之麥克風系統 300T 於一訓練階段之麥克風系統 310、320 儲存裝置 311a 無噪音(或乾淨的)單麥克風時域原始音訊資料 311b 有噪音的單麥克風時域原始音訊資料 312 ”混合的”Q個麥克風時域擴增音訊資料 313 軟體程式 330 特徵提取器 350 處理器 360 神經網路 370 損失函數部 380 角度偵測單元 402 光學雷達感應器

[圖1]係根據本發明，顯示麥克風系統之一方塊圖。 [圖2A]例示一筆記型電腦(laptop)的四個側面(A面(或背面)201、B面(或正面)202、C面(或頂面)203、D面(或底面)204)。 [圖2B]例示一筆記型電腦的螢幕210相對於水平線H，往上傾斜角。 [圖2C]例示電腦螢幕210從角往上傾斜至 ’角。 [圖2D]例示根據傾斜角 ’定義出新界線230。 [圖3A]係根據本發明一實施例，顯示於一訓練階段之麥克風系統之示意圖。 [圖3B]係根據本發明一實施例，顯示特徵提取器330的示意圖。 [圖3C]係根據本發明一實施例，顯示於一推斷(inference)階段之麥克風系統之示意圖。 [圖4A-4B]例示一光學雷達感應器(light detection and ranging (Lidar) sensor)用來偵測筆記型電腦螢幕是否往上或往下傾斜。 [圖5]係根據本發明一實施例，顯示一波束成形方法的流程圖。

100 麥克風系統 110 麥克風陣列 111-11Q 麥克風 120 感應器 130 具幾何感知功能的波束成形器

Claims

一種麥克風系統，適用於一電子裝置，該電子裝置包含一可調機構，致使一麥克風陣列的幾何形狀產生變化，該系統包含：該麥克風陣列，包含多個麥克風，用以偵測聲音以產生多個音訊訊號；一感應器，用以偵測該電子裝置的機構變化以產生一感應輸出值；以及一波束成形器，用以進行一組操作，包含：以一已受訓模組，根據該感應輸出值、於一個或更多期望方向上的一個或更多第一聲源以及於一個或更多非期望方向上的一個或更多第二聲源，對該些音訊訊號進行空間濾波，以產生始於該一個或更多第一聲源的一波束成形輸出訊號。
如請求項1之系統，其中該進行空間濾波的操作更包含：利用該已受訓模組，根據該感應輸出值，在該一個或更多第一聲源以及該一個或更多第二聲源之間，決定一界線；以及利用該已受訓模組，根據該界線，對該些音訊訊號進行空間濾波，以產生該波束成形輸出訊號。
如請求項2之系統，其中該決定該界線的操作包含：根據該感應輸出值以及該些麥克風設在該電子裝置上的位置，計算該些麥克風的座標；以及利用該已受訓模組，根據該些麥克風的座標，在該一個或更多第一聲源以及該一個或更多第二聲源之間，決定該界線。
如請求項1之系統，其中該組操作更包含：利用該已受訓模組，根據該感應輸出值、該一個或更多第一聲源以及該一個或更多第二聲源，對該些音訊訊號進行去噪操作，以產生始於該一個或更多第一聲源的無噪音的該波束成形輸出訊號。
如請求項1之系統，其中該進行空間濾波的操作更包含：利用該已受訓模組，根據該感應輸出值、該一個或更多第一聲源以及該一個或更多第二聲源，對該些音訊訊號的一特徵向量進行空間濾波，以產生始於該一個或更多第一聲源的該波束成形輸出訊號；其中該組操作更包含：從該些音訊訊號的多個頻譜代表式中，提取出該特徵向量；其中，該特徵向量包含多個量值頻譜、多個相位頻譜以及多個相位差頻譜。
如請求項1之系統，其中該電子裝置是一筆記型電腦，且該些麥克風係分別設在一電腦螢幕的外緣以及C面，以及其中該可調機構是一轉軸。
如請求項1之系統，其中該電子裝置是一筆記型電腦，且該感應器為一陀螺儀，係設在A側及B側之一。
如請求項1之系統，其中該電子裝置是一筆記型電腦，且該感應器為一光學雷達感應器，係設在B側及C側之一。
如請求項1之系統，其中該電子裝置是一耳機麥克風，以及其中該可調機構是一夾緊式頭帶，以及該感應器是一旋轉電位計，係設在該夾緊式頭帶的中間點。
如請求項1之系統，其中該電子裝置是一耳機麥克風，且該些麥克風係分別設在二個耳罩的周遭。
如請求項1之系統，其中該電子裝置是一可穿戴式揚聲器，以及其中該可調機構是一可調式頸帶，以及該感應器是一旋轉電位計，係設在該可調式頸帶的中間點。
如請求項1之系統，其中該電子裝置是一可穿戴式揚聲器，且該些麥克風係分別內嵌於該可穿戴式揚聲器的二個前端。
如請求項1之系統，其中該已受訓模組是一神經網路，係利用一訓練資料集、該一個或更多第一聲源、該一個或更多第二聲源以及多個感應輸出值來訓練，以及其中該訓練資料集係有關於始於該一個或更多第一聲源及該一個或更多第二聲源之無噪音單麥克風音訊資料及有噪音單麥克風音訊資料之組合。
一種波束成形的方法，適用於一電子裝置之一麥克風系統，該電子裝置包含一可調機構，其中該可調機構致使一麥克風陣列的幾何形狀產生變化，該方法包含：以該麥克風陣列之多個麥克風，偵測聲音以產生多個音訊訊號；以一感應器，偵測該電子裝置的機構變化以產生一感應輸出值；以及以一已受訓模組，根據該感應輸出值、於一個或更多期望方向上的一個或更多第一聲源以及於一個或更多非期望方向上的一個或更多第二聲源，對該些音訊訊號進行空間濾波操作，以產生始於該一個或更多第一聲源的一波束成形輸出訊號。
如請求項14之方法，其中該進行空間濾波的步驟更包含：以該已受訓模組，根據該感應輸出值，在該一個或更多第一聲源以及該一個或更多第二聲源之間，決定一界線；以及以該已受訓模組，根據該界線，對該些音訊訊號進行空間濾波，以產生該波束成形輸出訊號。
如請求項15之方法，其中該決定該界線的步驟包含：根據該感應輸出值以及該些麥克風設在該電子裝置上的位置，計算該些麥克風的座標；以及以該已受訓模組，根據該些麥克風的座標，在該一個或更多第一聲源以及該一個或更多第二聲源之間，決定該界線。
如請求項14之方法，更包含：以該已受訓模組，根據該感應輸出值、該一個或更多第一聲源以及該一個或更多第二聲源，對該些音訊訊號進行去噪操作，以產生始於該一個或更多第一聲源的無噪音的該波束成形輸出訊號。
如請求項14之方法，其中更包含：於該進行空間濾波步驟之前，從該些音訊訊號的多個頻譜代表式中，提取出該特徵向量；其中該進行空間濾波步驟更包含：以該已受訓模組，根據該感應輸出值、該一個或更多第一聲源以及該一個或更多第二聲源，對該些音訊訊號的一特徵向量進行空間濾波操作，以產生始於該一個或更多第一聲源的該波束成形輸出訊號；其中，該特徵向量包含多個量值頻譜、多個相位頻譜以及多個相位差頻譜。
如請求項14之方法，更包含：將該些麥克風分別設在一電腦螢幕的外緣以及C面；其中該電子裝置是一筆記型電腦。
如請求項14方法，更包含：將該感應器設在A側及B側之一；其中該感應器為一陀螺儀以及該電子裝置是一筆記型電腦。
如請求項14之方法，更包含：將該感應器設在B側及C側之一；其中該感應器為一光學雷達感應器以及該電子裝置是一筆記型電腦。
如請求項14之方法，其中該電子裝置是一耳機麥克風，以及該可調機構是一夾緊式頭帶。
如請求項22之方法，更包含：將該些麥克風分別設在二個耳罩的周遭；以及將該感應器設在該夾緊式頭帶的中間點；其中該感應器是一旋轉電位計。
如請求項14之方法，其中該電子裝置是一可穿戴式揚聲器，以及其中該可調機構是一可調式頸帶。
如請求項24之方法，更包含：將該些麥克風分別設在該可穿戴式揚聲器的二個前端；以及將該感應器設在該可調式頸帶的中間點；其中該感應器是一旋轉電位計。
如請求項14之方法，其中該已受訓模組是一神經網路，係利用一訓練資料集、該一個或更多第一聲源、該一個或更多第二聲源以及多個感應輸出值來訓練，以及其中該訓練資料集係有關於始於該一個或更多第一聲源及該一個或更多第二聲源之無噪音單麥克風音訊資料及有噪音單麥克風音訊資料之組合。