TWI779760B

TWI779760B - 資料擴增方法與非暫態電腦可讀取媒體

Info

Publication number: TWI779760B
Application number: TW110128791A
Authority: TW
Inventors: 楊朝勛; 吳俊樟; 陳世澤
Original assignee: 瑞昱半導體股份有限公司
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2022-10-01
Also published as: TW202307794A; US12423959B2; US20230041693A1

Abstract

一種資料擴增方法，其包含以下流程：自原始資料集中選擇原始影像，其中原始資料集包含用於表示原始影像的標註區域的標註資料；選擇至少部分原始影像位於標註區域中的內容作為第一目標影像；依據第一目標影像產生第一樣本影像，其中第一樣本影像包含第一目標影像以及不同於第一目標影像的第一邊框圖案，且原始影像位於標註區域中的內容不包含第一邊框圖案的至少一部分；以及將第一樣本影像加入樣本資料集，其中樣本資料集用於輸入機器學習模型。

Description

資料擴增方法與非暫態電腦可讀取媒體

本揭示文件有關一種資料處理方法與非暫態電腦可讀取媒體，尤指一種資料擴增方法與非暫態電腦可讀取媒體。

為了提升機器學習模型的準確度，訓練模型時不僅需要數量多且多樣化的訓練資料，訓練資料的內容也要符合訓練主題。雖然從網路上直接取得機器學習的公開資料集進行訓練可加快產品的開發速度，但公開資料集中符合訓練主題的樣本數可能不足。另一方面，自行手動產生質精、量多又多樣化訓練資料(例如針對某種生物拍攝一系列影像)，將使得產品開發曠日廢時，大幅增加時間成本。因此，現今與機器學習有關的產業正致力於研究能基於現有資料創造出額外訓練資料的各種資料擴增技術。

本揭示文件提供一種資料擴增方法，其包含以下流程：自原始資料集中選擇原始影像，其中原始資料集包含用於表示原始影像的標註區域的標註資料；選擇至少部分原始影像位於標註區域中的內容作為第一目標影像；依據第一目標影像產生第一樣本影像，其中第一樣本影像包含第一目標影像以及不同於第一目標影像的第一邊框圖案，且原始影像位於標註區域中的內容不包含第一邊框圖案的至少一部分；以及將第一樣本影像加入樣本資料集，其中樣本資料集用於輸入機器學習模型。

本揭示文件提供一種非暫態電腦可讀取媒體。非暫態電腦可讀取媒體儲存有一或多個電腦可執行指令。當計算裝置執行一或多個電腦可執行指令時，一或多個電腦可執行指令使得計算裝置執行以下運作：自原始資料集中選擇原始影像，其中原始資料集包含用於表示原始影像的標註區域的標註資料；選擇至少部分原始影像位於標註區域中的內容作為第一目標影像；依據第一目標影像產生第一樣本影像，其中第一樣本影像包含第一目標影像以及不同於第一目標影像的第一邊框圖案，且原始影像位於標註區域中的內容不包含第一邊框圖案的至少一部分；以及將第一樣本影像加入樣本資料集，其中樣本資料集用於輸入機器學習模型。

100:移動偵測系統

110:影像擷取裝置

120:處理器

130:電子裝置

132:物件偵測模型

210:畫面

212,214:區域

220,230:影像

300:資料擴增方法

310~340:流程

410:原始影像

412:標註區域

510:目標區域

520,610:目標影像

710:待擷取區域

720,810,910:樣本影像

730:標註區域以外的內容

APa,APb,APc:邊框圖案

HTa,HTb,HTc,HTd:高度

MO:移動物件

P1:第一部分

P2:第二部分

V1:第一數值

V2:第二數值

V3:第三數值

V4:第四數值

Vla,Vlb,Vlc,Vld:座標點

WDa,WDb,WDc,WDd:寬度

第1圖為依據本揭示文件一實施例的移動偵測系統簡化後功能方塊圖。

第2圖為依據一實施例用於說明移動偵測系統辨識移動物件的示意圖。

第3圖為依據本揭示文件一實施例的資料擴增方法的流程圖。

第4圖為依據一實施例的原始資料集中的原始影像的示意圖。

第5圖為依據一實施例用於說明計算裝置產生隨機決定的目標影像的示意圖。

第6圖為依據本揭示文件一實施例用於說明計算裝置產生目標影像的示意圖。

第7圖為依據一實施例用於說明計算裝置產生樣本影像的示意圖。

第8圖為依據一實施例用於說明計算裝置產生樣本影像的示意圖。

第9圖為依據一實施例用於說明計算裝置產生樣本影像的示意圖。

以下將配合相關圖式來說明本揭示文件的實施例。在圖式中，相同的標號表示相同或類似的元件或方法流程。

第1圖為依據本揭示文件一實施例的移動偵測系統100簡化後功能方塊圖。移動偵測系統100包含影像擷取裝置110、處理器120和電子裝置130，其中處理器120耦接於影像擷取裝置110，且透過網路耦接於電子裝置130。處理器120用於判斷影像擷取裝置110拍攝的影像是否存在移動物件，並用於將包含移動物件的影像上傳至電子裝置130。電子裝置130包含物件偵測模型132，物件偵測模型132可以是訓練完成的機器學習模型。當電子裝置130執行物件偵測模型132時，電子裝置130可判斷處理器120上傳的影像中是否包含特定物件，例如人形物件。

詳細而言，處理器120可以將影像擷取裝置110拍攝的連續兩幀畫面相減，藉由兩幀畫面中畫素的灰階值差異判斷存在移動物件的區域。接著，為了節省資料流量，處理器120可自較晚的一幀畫面中僅擷取包含移動物件的部分，並將擷取的部分上傳以供電子裝置130判斷是否拍攝到特定物件。

第2圖為依據一實施例用於說明移動偵測系統100辨識移動物件的示意圖。第2圖所示的畫面210為影像擷取裝置110拍攝的一幀畫面，且畫面210包含移動物件MO。理想上，處理器120會判斷區域212存在移動物件MO，並擷取區域212中的影像220以供電子裝置130判斷區域212中是否存在特定(例如人形)物件。然而，由於影像辨識演算法會受到殘影現象(ghost effect)影響，處理器120實際上會判斷區域214存在移動物件MO，並上傳區域214中的影像230給電子裝置130。若物件偵測模型132是以幾乎不含背景的單純人形影像進行訓練(例如類似影像220的影像)，則影像230右半部的額外背景部分可能會降低物件偵測模型132的準確度。

為了提升對於移動物件的辨識正確率，本揭示文件提供了一種資料擴增方法300。資料擴增方法300可以由各種合適的計算裝置(未繪示)來執行，例如單或多晶片之通用處理器、現場可程式化邏輯閘陣列(FPGA)及特殊應用積體電路(ASIC)等等。資料擴增方法300的步驟可被記錄為非暫態電腦可讀取媒體中的一或多個電腦可執行指令。當前述一或多個指令被計算裝置執行時，這一或多個指令會使得計算裝置執行資料擴增方法300。

第3圖為依據本揭示文件一實施例的資料擴增(data augmentation)方法300的流程圖。首先，於流程310，計算裝置可以自一原始資料集中選擇一張原始影像(如第4圖所示的原始影像410)。原始資料集可以是自網際網路下載的公開影像資料集(例如Common Object in Context(COCO)資料集)、使用者自行拍攝收集的影像資料集、或是前述兩者的組合。在一些實施例中，原始資料集可以儲存於與計算電路互相耦接的一記憶體電路(未繪示)之中，以供計算電路在執行資料擴增方法300時進行存取。

原始資料集包含多張原始影像(例如原始影像410)與標註資料。標註資料用於表示每張原始影像的標註區域(例如一定界框(bonding box))，且可以用於表示標註區域中的物件類型。例如，請參考第4圖，標註資料可記載原始影像410的標註區域412的左上角為具有座標(380,677)的座標點Vla，以及記載標註區域412的高度HTa和寬度WDa。在一些實施例中，前述座標值是以畫素為單位。又例如，標註資料還可記載標註區域412所標示的物件為「person」，亦即人形物件。在一些實施例中，標註資料為可延伸標記式語言(XML)檔案或文字檔案。值得注意的是，第4圖的標註區域412是透過標註資料於原始影像410中所定義出的範圍，不需要是實際存在於原始影像410中的框線。

接著，於流程320，計算裝置可以選擇原始影像410位於標註區域412中的完整內容作為目標影像，並接著執行流程330。在一些實施例中，計算裝置可以選擇原始影像410位於標註區域412中的內容的一部分作為目標影像(例如第5圖的目標影像520及第6圖的目標影像610)。換言之，計算裝置可以選擇原始影像410位於標註區域412中的至少部分內容作為目標影像，並基於目標影像接著執行流程330。以下將配合第5圖和第6圖進一步說明流程320。

第5圖為依據一實施例用於說明計算裝置產生隨機決定的目標影像520的示意圖。計算裝置可以在標註區域412的範圍內隨機決定目標區域510，亦即目標區域510具有隨機決定的位置、高度HTb和寬度WDb，但目標區域510不超出且小於標註區域412。

以下將詳細說明隨機決定目標區域510的步驟，但本揭示文件不以此為限。在一些實施例中，計算裝置可以先在標註區域412內隨機決定座標點Vlb(例如具有座標(670,1630))，並以座標點Vlb作為目標區域510的頂點之一。接著，計算裝置可以在滿足以下條件的數值範圍內，隨機決定目標區域510自座標點Vlb延伸的寬度WDb與高度HTb：目標區域510不超出且小於標註區域412。值得注意的是，在定義出座標點Vlb後，目標區域510的寬度WDb可以自由選擇(或隨機決定)自座標點Vlb向左或向右延伸，而目標區域510的高度HTb也可以自由選擇(或隨機決定)自座標點Vlb向上或向下延伸。

在產生隨機決定的目標區域510之後，計算裝置可以選擇原始影像410位於目標區域510中的內容作為目標影像520，並基於目標影像520接著執行流程330。換言之，目標影像520也具有寬度WDb和高度HTb。上述隨機決定目標區域510的方法僅為示例，其他可於標註區域412中隨機選擇部分影像的方法皆為本揭示文件所涵蓋的範圍。

第6圖為依據本揭示文件一實施例用於說明計算裝置產生目標影像610的示意圖。在本實施例中，標註區域412中的物件為人形物件。計算裝置可以使用額外的影像辨識模型(例如適用於物件偵測的預訓練模型(pre-trained model))來辨識標註區域412中人形物件的上半部分。例如，計算裝置可將人形物件大致位於臀部以上的部分辨識為人形物件的上半部分。接著，計算裝置可選擇標註區域412中包含人形物件的上半部分的內容(例如標註區域412中虛線以上的內容)作為目標影像610，並基於目標影像610接著執行流程330。

值得一提的是，第1圖的處理器120在擷取包含移動物件的畫面時，可能會錯誤地將移動物件與背景顏色相近的部分濾除。另一方面，移動物件本身也可能被環境物件(例如傢俱)所遮擋。上述兩種情況皆會造成處理器120上傳至電子裝置130的畫面包含不完整的移動物件，因而可能導致物件偵測模型132的準確度降低。藉由第5圖和第6圖所討論的運作，資料擴增方法300能創造出有關不完整物件的訓練資料，以解決上述問題。

請再參考第3圖，計算裝置會於流程330依據目標影像(例如目標影像520和目標影像610)產生樣本影像(例如第7圖~第9圖中的樣本影像720、810和910)，其中樣本影像包含於流程320中描述的目標影像以及不同於目標影像的邊框圖案(例如第7圖~第9圖中的邊框圖案APa、APb和APc)。

值得一提的是，原始影像410位於標註區域412中的內容，不包含邊框圖案的至少一部分，亦即邊框圖案可以包含標註區域412以外的內容。如此一來，流程330產生的樣本影像便會類似於第2圖的影像230包含額外的背景部分。以下將配合第7圖~第9圖以第5圖的目標影像520為例來詳細說明流程330，但本揭示文件不以此為限。流程330適用於前述多種實施例中的目標影像。

第7圖為依據一實施例用於說明計算裝置產生樣本影像720的示意圖。於流程320中決定目標影像520後，計算裝置可以依據目標影像520於原始影像410中的位置，在原始影像410中決定待擷取區域710。待擷取區域710具有高度HTc和寬度WDc。在一些實施例中，計算裝置可以將待擷取區域710的高度HTc設置為目標影像520的高度HTb加上隨機決定的第一數值V1，且計算裝置可以將待擷取區域710的寬度WDc設置為目標影像520的寬度WDb加上隨機決定的第二數值V2。

在一些實施例中，待擷取區域710的位置、寬度WDc和高度HTc使待擷取區域710能完整包含目標影像520。在另一些實施例中，第一數值V1和第二數值V2是自滿足以下條件的數值範圍內隨機選擇：待擷取區域710包含原始影像410位於標註區域412以外的部分內容(亦即第7圖中以標號730標示者)。在又一實施例中，如第7圖所示，待擷取區域710與目標影像520共用一頂點(座標點Vlc)，且待擷取區域710連接座標點Vlc的相鄰兩邊緣包含目標影像520連接座標點Vlc的相鄰兩邊緣。

在定義待擷取區域710後，計算裝置會擷取原始影像410位於待擷取區域710中的內容以產生樣本影像720，並接著執行流程340。在一些實施例中，目標影像520與樣本影像720具有大致相同的形狀，例如矩形。如第7圖所示，樣本影像720包含目標影像520以及不同於目標影像520的邊框圖案APa。邊框圖案APa為待擷取區域710中不同於目標影像520的內容，亦即待擷取區域710中位於目標區域510以外的內容。在一些實施例中，待擷取區域710的寬度WDc可以自目標影像520的某一頂點自由選擇(或隨機決定)向左或向右延伸，而待擷取區域710的高度HTc也可以自目標影像520的該某一頂點自由選擇(或隨機決定)向上或向下延伸。換言之，在樣本影像720中，邊框圖案APa可以是連接於目標影像520的任兩相鄰邊緣，而形成位於目標影像520的右上方(如第7圖所示)、左上方、右下方或左下方的L形圖案。

第8圖為依據一實施例用於說明計算裝置產生樣本影像810的示意圖。在第8圖的實施例中，計算裝置會自原始影像410中擷取出目標影像520。接著，計算裝置會產生包含目標影像520的樣本影像810。在一些實施例中，目標影像520與樣本影像810具有大致相同的形狀，例如矩形。計算裝置可以將樣本影像810的高度HTd設置為目標影像520的高度HTb加上隨機決定的第三數值V3，且將樣本影像810的寬度WDd設置為目標影像520的寬度WDb加上隨機決定的第四數值V4。計算裝置會將樣本影像810中目標影像520以外的區域以邊框圖案APb填充。在一些實施例中，邊框圖案APb為單色圖案，亦即邊框圖案APb的每個畫素具有相同的灰階值。在產生樣本影像810後，計算裝置會接著執行流程340。

在一些實施例中，樣本影像810和目標影像520 共用頂點Vld，且樣本影像810連接頂點Vld的相鄰兩邊緣包含目標影像520連接頂點Vld的相鄰兩邊緣。因此，邊框圖案APb可以是連接於目標影像520的任兩相鄰邊緣，而形成位於目標影像520的右上方(如第8圖所示)、左上方、右下方或左下方的L形圖案。

第9圖為依據一實施例用於說明計算裝置產生樣本影像910的示意圖。第9圖的樣本影像910與第8圖的樣本影像810具有大致相同的產生步驟，故在此不重複贅述，以下僅就不同處詳細說明。計算裝置可以使用一或多張影像來填充樣本影像910中目標影像520以外的區域，以形成邊框圖案APc。換言之，邊框圖案APc可以使用擷取自原始影像410一或多個位置的內容、不同於原始影像410的一或多張額外影像或以上兩者的組合進行拼貼。例如，邊框圖案APc的第一部分P1可以擷取自一張關於汽車的影像，而邊框圖案APc的第二部分P2可以擷取自一張關於鐵軌的影像。在一些實施例中，計算裝置可以自不同於原始資料集的另一圖像資料集選擇用於形成邊框圖案APc的一或多張影像。在產生樣本影像910後，計算裝置會接著執行流程340。

在流程340中，計算裝置將樣本影像(例如樣本影像720、810或910)加入樣本資料集，其中樣本資料集可用於輸入(訓練)機器學習模型(例如第1圖的物件偵測模型132)。在一些實施例中，計算裝置可縮放樣本影像以調整其解析度及/或寬長比，以使樣本影像的大小與樣本資料集中的其他影像一致。

由上述可知，樣本影像720、810和910包含了欲訓練模型進行辨識的特定類型物件(例如目標影像520)以及額外的背景(例如邊框圖案APa、APb和APc)，因而相似於第1圖的移動偵測系統100實際用於進行物件偵測的影像230。因此，使用資料擴增方法300產生的樣本資料集對於第1圖的物件偵測模型132進行訓練，將能有效提升物件偵測模型132的準確度。

在一些實施例中，計算裝置可重複執行資料擴增方法300，進而提升樣本資料集的資料量及多樣性。在再次執行流程310時，計算裝置可以再次選擇原始影像410以利用原始影像410產生多張不同的樣本影像，或者計算裝置也可以選擇原始資料集中的其他原始影像。

在說明書及申請專利範圍中使用了某些詞彙來指稱特定的元件。然而，所屬技術領域中具有通常知識者應可理解，同樣的元件可能會用不同的名詞來稱呼。說明書及申請專利範圍並不以名稱的差異做為區分元件的方式，而是以元件在功能上的差異來做為區分的基準。在說明書及申請專利範圍所提及的「包含」為開放式的用語，故應解釋成「包含但不限定於」。另外，「耦接」在此包含任何直接及間接的連接手段。因此，若文中描述第一元件耦接於第二元件，則代表第一元件可通過電性連接或無線傳輸、光學傳輸等信號連接方式而直接地連接於第二元件，或者通過其他元件或連接手段間接地電性或信號連接至該第二元件。

在此所使用的「及/或」的描述方式，包含所列舉的其中之一或多個項目的任意組合。另外，除非說明書中特別指明，否則任何單數格的用語都同時包含複數格的涵義。

以上僅為本揭示文件的較佳實施例，凡依本揭示文件請求項所做的均等變化與修飾，皆應屬本揭示文件的涵蓋範圍。

300:資料擴增方法

310~340:流程

Claims

一種資料擴增(data augmentation)方法，包含：藉由一計算裝置，自一原始資料集中選擇一原始影像，其中該原始資料集包含用於表示該原始影像的一標註區域的一標註資料；藉由該計算裝置，選擇至少部分該原始影像位於該標註區域中的內容作為一第一目標影像；藉由該計算裝置，依據該第一目標影像產生一第一樣本影像，其中該第一樣本影像包含該第一目標影像以及不同於該第一目標影像的一第一邊框圖案，且該原始影像位於該標註區域中的該內容不包含該第一邊框圖案的至少一部分；以及藉由該計算裝置，將該第一樣本影像加入一樣本資料集，其中該樣本資料集用於輸入一機器學習模型；其中依據該第一目標影像產生該第一樣本影像包含：依據該第一目標影像在該原始影像中的位置，在該原始影像中決定一待擷取區域，其中該待擷取區域包含該第一目標影像；將該待擷取區域的一高度設定為該第一目標影像的一高度加上隨機決定的一第一數值，並將該待擷取區域的一寬度設定為該第一目標影像的一寬度加上隨機決定的一第二數值；以及擷取該原始影像位於該待擷取區域中的內容以產生該第一樣本影像，其中該待擷取區域中不同於該第一目標影像的內容為該第一邊框圖案。
如請求項1所述之資料擴增方法，其中，選擇至少部分該原始影像位於該標註區域中的該內容作為該第一目標影像包含：在該標註區域中決定一目標區域，其中該目標區域具有隨機決定的一位置、一高度和一寬度；以及選擇該原始影像位於該目標區域中的內容作為該第一目標影像。
如請求項1所述之資料擴增方法，其中，該標註區域中包含一人形物件，選擇至少部分該原始影像位於該標註區域中的該內容作為該第一目標影像包含：選擇該原始影像位於該標註區域中且包含該人形物件的上半部分的內容作為該第一目標影像。
如請求項1所述之資料擴增方法，還包含：選擇至少部分該原始影像位於該標註區域中的該內容作為一第二目標影像；依據該第二目標影像產生一第二樣本影像，其中該第二樣本影像包含該第二目標影像以及不同於該第二目標影像的一第二邊框圖案，且該原始影像位於該標註區域中的該內容不包含該第二邊框圖案的至少一部分；以及將該第二樣本影像加入該樣本資料集，其中該第一樣本影像不同於該第二樣本影像。
如請求項1所述之資料擴增方法，其中，該待擷取區域與該第一目標影像共用一頂點，且該待擷取區域的相鄰兩邊緣包含該第一目標影像的相鄰兩邊緣。
一種資料擴增方法，包含：藉由一計算裝置，自一原始資料集中選擇一原始影像，其中該原始資料集包含用於表示該原始影像的一標註區域的一標註資料；藉由該計算裝置，選擇至少部分該原始影像位於該標註區域中的內容作為一第一目標影像；藉由該計算裝置，依據該第一目標影像產生一第一樣本影像，其中該第一樣本影像包含該第一目標影像以及不同於該第一目標影像的一第一邊框圖案，且該原始影像位於該標註區域中的該內容不包含該第一邊框圖案的至少一部分；以及藉由該計算裝置，將該第一樣本影像加入一樣本資料集，其中該樣本資料集用於輸入一機器學習模型；其中依據該第一目標影像產生該第一樣本影像包含：將該第一樣本影像的一高度設置為該第一目標影像的一高度加上隨機決定的一第一數值；將該第一樣本影像的一寬度設置為該第一目標影像的一寬度加上隨機決定的一第二數值；以及利用該第一邊框圖案填充該第一樣本影像中該第一目標影像以外的區域。
如請求項6所述之資料擴增方法，其中，該第一邊框圖案的每個畫素具有相同灰階值。
如請求項6所述之資料擴增方法，其中，該第一邊框圖案擷取自相同或不同於該原始影像的一或多個影像。
一種非暫態電腦可讀取媒體，儲存有一或多個電腦可執行指令，其中當一計算裝置執行該一或多個電腦可執行指令時，該一或多個電腦可執行指令使得該計算裝置執行以下運作：自一原始資料集中選擇一原始影像，其中該原始資料集包含用於表示該原始影像的一標註區域的一標註資料；選擇至少部分該原始影像位於該標註區域中的內容作為一第一目標影像；依據該第一目標影像產生一第一樣本影像，其中該第一樣本影像包含該第一目標影像以及不同於該第一目標影像的一第一邊框圖案，且該原始影像位於該標註區域中的該內容不包含該第一邊框圖案的至少一部分；以及將該第一樣本影像加入一樣本資料集，其中該樣本資料集用於輸入一機器學習模型；其中依據該第一目標影像產生該第一樣本影像包含：依據該第一目標影像在該原始影像中的位置，在該原始影像中決定一待擷取區域，其中該待擷取區域包含該第一目標影像；將該待擷取區域的一高度設定為該第一目標影像的一高度加上隨機決定的一第一數值，並將該待擷取區域的一寬度設定為該第一目標影像的一寬度加上隨機決定的一第二數值；以及擷取該原始影像位於該待擷取區域中的內容以產生該第一樣本影像，其中該待擷取區域中不同於該第一目標影像的內容為該第一邊框圖案。