TWI854496B - 以浮水印為基礎的音訊處理方法及音訊播放器 - Google Patents
以浮水印為基礎的音訊處理方法及音訊播放器 Download PDFInfo
- Publication number
- TWI854496B TWI854496B TW112106274A TW112106274A TWI854496B TW I854496 B TWI854496 B TW I854496B TW 112106274 A TW112106274 A TW 112106274A TW 112106274 A TW112106274 A TW 112106274A TW I854496 B TWI854496 B TW I854496B
- Authority
- TW
- Taiwan
- Prior art keywords
- digital
- input signal
- watermark
- audio
- generate
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M1/00—Analogue/digital conversion; Digital/analogue conversion
- H03M1/12—Analogue/digital converters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
一種以浮水印為基礎的音訊處理方法,適用於包含接收器、類比數位轉換器、處理器、數位類比轉換器及傳送器的音訊播放器。方法包含接收器接收音訊輸入訊號,類比數位轉換器將音訊輸入訊號轉換為數位輸入訊號,處理器偵測數位輸入訊號的能量,若能量超出臨界值,處理器偵測數位輸入訊號中是否包含浮水印,若否,處理器將浮水印嵌入預設數位語音訊號以產生一數位輸出訊號,再經由數位類比轉換器將該數位輸出訊號轉換為音訊輸出訊號,最後傳送器輸出音訊輸出訊號以進行播放,以讓使用者得知音訊播放器已正確辨識出指令。
Description
本發明關於音訊訊號處理,特別是一種以浮水印(watermark)為基礎的音訊處理方法及音訊播放器。
機上盒(set-top box,STB)為一種網路終端裝置,可在傳統的電視實現線上點播、電視直播、瀏覽網頁、收看影片或遊戲等功能。機上盒能透過語音指令執行各種操作。然而,目前市面上的機上盒在收到語音指令後僅會於電視螢幕顯示語音指令以供使用者確認,使用方式不直覺,造成使用者不便。
本發明實施例提供一種以浮水印為基礎的音訊處理方法,適用於包含接收器、類比數位轉換器、處理器、數位類比轉換器及傳送器的音訊播放器。方法包含:接收器接收音訊輸入訊號;類比數位轉換器將音訊輸入訊號由類比轉換為數位形式以產生數位輸入訊號;處理器偵測數位輸入訊號的能量;若能量超出臨界值,處理器便偵測數位輸入訊號中是否包含浮水印;若數位輸入訊號中未包含浮水印,則處理器將浮水印嵌入預設數位語音訊號以產生數位輸出訊號;數位類比轉換器將數位輸出訊號由數位轉換為類比形式以產生音訊輸出訊號;及傳送器輸出音訊輸出訊號以進行播放。
本發明實施例另提供一種以浮水印為基礎的音訊播放器,包含接收
器、類比數位轉換器、處理器、數位類比轉換器及傳送器。接收器,用以接收音訊輸入訊號;類比數位轉換器,耦接於接收器,用以將音訊輸入訊號由類比轉換為數位形式以產生數位輸入訊號;處理器,耦接於類比數位轉換器,用以偵測數位輸入訊號的能量,及若能量超出臨界值,便偵測數位輸入訊號中是否包含浮水印,若數位輸入訊號中未包含浮水印,則理器將浮水印嵌入預設數位語音訊號,以產生數位輸出訊號;數位類比轉換器,耦接於處理器,用以將數位輸出訊號由數位轉換為類比形式以產生音訊輸出訊號;及傳送器,耦接於數位類比轉換器,用以輸出音訊輸出訊號以進行播放。
1:音訊系統
10:遙控器
100:麥克風
102:傳送器
12:音訊播放器
141,142:喇叭
161,162:障礙物
18:使用者
120:接收器
122:類比數位轉換器
124:處理器
126:數位類比轉換器
128:傳送器
300:音訊處理方法
S300至S314,S500至S510,S600至S612:步驟
A1,A2,A1’,A2’:重放聲波
Cmd:語音指令
Din,Din1,Din2,Din3:數位輸入訊號
Dout:數位輸出訊號
M:振福
Sin:音訊輸入訊號
Sout1,Sout2:音訊輸出訊號
t,t1,t2,t3,t4,t5,t6:時間
第1圖係為本發明實施例中之一種以浮水印為基礎的音訊系統的方塊圖。
第2圖係為第1圖中之音訊播放器的方塊圖。
第3圖係為第1圖中之音訊播放器之音訊處理方法的流程圖。
第4圖係為第1圖中之音訊播放器之音訊輸入訊號的示意圖。
第5圖係為第3圖中之浮水印嵌入步驟的流程圖。
第6圖係為第3圖中之浮水印偵測步驟的流程圖。
第1圖係為本發明實施例中之一種以浮水印為基礎的音訊系統1的方塊圖。音訊系統1可接收使用者18的語音指令並依據語音指令執行相應功能。此外,音訊系統1可將至少一個浮水印嵌入符合裝置中服務語言設定的預設數位語音訊號以產生數位輸出訊號,並播放嵌入浮水印的音訊輸出訊號供使用者18確認,藉以提高系統可用性(accessibility)及使用性(user-friendliness)。若使用者確認
語音指令不正確,使用者可說出關鍵字"取消指令"或其他等效關鍵字,讓音訊系統1取消上一個語音指令的動作。每個浮水印可包含一組浮水印位元。由於播放出的音訊輸出訊號包含至少一個浮水印,因此音訊系統1可判定此語音音訊並非來自使用者18,且不會重複執行語音指令。
音訊系統1可包含遙控器10、音訊播放器12、喇叭141及142。遙控器10可透過無線連接耦接於音訊播放器12,音訊播放器12可透過有線或無線連接耦接於喇叭141及142。無線連接可為藍芽連接、無線網路(Wi-Fi)連接、或其他無線連接。有線連接可為通用序列匯流排(Universal Serial Bus,USB)或其他有線連接。音訊播放器12可例如整合於機上盒(set-top box,STB)或智慧音箱控制器。若音訊播放器12整合於機上盒,機上盒也能透過音訊播放器12接收來自使用者18的語音指令以控制電視執行各種操作。在一些實施例中,喇叭141及142可和音訊播放器12分開設置。在另一些實施例中,喇叭141及142可整合入音訊播放器12。在一些實施例中,音訊系統1可設置於室內環境,包含障礙物161及162。障礙物161及162可為牆壁、天花板、桌椅或其他障礙物。當聲波碰撞到障礙物161及/或162時會減弱聲波。
遙控器10可包含彼此耦接的麥克風100及傳送器102。麥克風100可接收使用者18發出的語音指令Cmd。語音指令Cmd可包含關鍵字,例如播放音樂、調整音量、播報天氣、設定鬧鐘等。傳送器102可依據語音指令Cmd產生並傳送音訊輸入訊號Sin至音訊播放器12,音訊輸入訊號Sin可包含關鍵字。音訊輸入訊號Sin可為脈衝編碼調變(pulse-code modulation,PCM)訊號,且可為時域訊號。音訊播放器12可執行關鍵字的相應功能以及將P個浮水印的P組浮水印位元嵌入預設數位語音訊號以產生音訊輸出訊號Sout1及Sout2,P為正整數,例如P等於
15。每組浮水印位元可相同,且可依據預設字串的美國資訊交換標準(American standard code for information interchange,ASCII)碼產生。例如,預設字串可為”Realtek”,且每組浮水印位元可依據”Realtek”的ASCII碼產生(例如“0010 0101 0001 1100 0100 0101 1011”),總共包含28位元。預設數位語音訊號可相應於關鍵字,且可為符合音訊系統1中服務語言設定的內建數位語音訊號。例如,服務語言設定可為中文,預設數位語音訊號可為相應於關鍵字”播放音樂”的內建數位語音訊號。音訊輸出訊號Sout1及Sout2可為相異的立體聲道訊號或相同的單聲道訊號。另外,音訊輸出訊號Sout1及Sout2皆可為脈衝編碼調變訊號,且可為時域訊號。喇叭141及142可分別依據音訊輸出訊號Sout1及Sout2產生重放聲波A1及A2,且重放聲波A1及A2可分別經過空氣傳導及由障礙物161及162反彈以產生衰減後的重放聲波A1’及A2’。麥克風100亦可接收衰減後的重放聲波A1’及A2’,且傳送器102亦可依據衰減後的重放聲波A1’及/或A2’產生並傳送音訊輸入訊號Sin至音訊播放器12。若音訊播放器12偵測到音訊輸入訊號Sin包含至少一組浮水印位元(例如“0010 0101 0001 1100 0100 0101 1011”)則不會再次產生音訊輸出訊號Sout1及Sout2,也不會再次執行關鍵字的相應功能。
第2圖係為第1圖中之音訊播放器12的方塊圖。音訊播放器12可包含依序耦接的接收器120、類比數位轉換器(analog-to-digital converter,ADC)122、處理器124、數位類比轉換器(digital-to-analog converter,DAC)126及傳送器128。接收器120可接收音訊輸入訊號Sin,且類比數位轉換器122可依據預設取樣率將音訊輸入訊號Sin由類比轉換為數位形式,經由處理器124分段後產生數位輸入訊號Din。例如,若預設取樣率為每秒48kHz,則類比數位轉換器121可對音訊輸入訊號Sin進行取樣以於每秒產生48k個數位資料以產生數位化的音訊輸入訊號。處理器124可依據預設窗大小(window size)對數位化的音訊輸入訊號進行分段以產
生數位輸入訊號,並偵測數位輸入訊號的能量,偵測數位輸入訊號中的浮水印或將浮水印嵌入預設數位語音訊號,及依據關鍵字執行相應功能。在一些實施例中,預設窗大小可為預設值,例如3秒。在另一些實施例中,處理器124可依據語音指令Cmd的長度設置預設窗大小。在一些實施例中,處理器124可產生嵌入浮水印的數位輸出訊號Dout,且數位類比轉換器126可將數位輸出訊號Dout由數位轉換為類比形式以產生音訊輸出訊號,且傳送器128可依據音訊輸出訊號分別產生音訊輸出訊號Sout1及Sout2,及分別傳送音訊輸出訊號Sout1及Sout2至喇叭141及142以進行播放。使用者18可經由聆聽音訊輸出訊號Sout1及Sout2得知音訊播放器12已正確辨識出語音指令Cmd。
第3圖係為音訊播放器12之音訊處理方法300的流程圖。音訊處理方法300包含步驟S300至S314,其中步驟S300至S303用以判斷數位輸入訊號Din是否包含關鍵字;若包含關鍵字,進行步驟S304及S306以判斷數位輸入訊號Din的能量是否超出臨界值Eth;若超出臨界值Eth,進行步驟S307以判斷數位輸入訊號Din是否包含浮水印;若未包含浮水印,表示數位輸入訊號Din為使用者18的輸入語音,繼續步驟S308至S314以播放包含浮水印的音訊輸出訊號Sout1及Sout2。任何合理的步驟改變、順序或調整都落在本公開內容的範圍內。步驟S300至S314解釋如下:
步驟S300:接收器120接收音訊輸入訊號Sin;
步驟S302:類比數位轉換器122將音訊輸入訊號Sin由類比轉換為數位形式以產生數位輸入訊號Din;
步驟S303:處理器124判斷數位輸入訊號Din是否包含關鍵字?若是,繼續步驟S304;若否,結束方法300。
步驟S304:處理器124偵測數位輸入訊號Din的能量E;
步驟S306:處理器124判斷能量E是否超出臨界值Eth?若是,繼續步驟S307;若否,結束方法300。
步驟S307:處理器124判斷數位輸入訊號Din是否包含浮水印?若否,繼續步驟S308;若是,結束方法300。
步驟S308:處理器124執行語音指令Cmd;
步驟S310:處理器124將浮水印嵌入預設數位語音訊號以產生數位輸出訊號Dout;
步驟S312:數位類比轉換器將數位輸出訊號Dout由數位轉換為類比形式以產生音訊輸出訊號Sout1/Sout2;
步驟S314:傳送器將音訊輸出訊號Sout1/Sout2傳送至喇叭141/142以進行播放;結束方法300。
在步驟S300,接收器120從遙控器10接收音訊輸入訊號Sin。在步驟S302,類比數位轉換器122以預設取樣率(例如48kHz)對音訊輸入訊號Sin進行取樣以產生數位輸入訊號Din1。在步驟S306,若能量E超出臨界值Eth,可視為數位輸入訊號Din由使用者18以正常音量產生或由較大音量的重放聲波A1’及/或A2’產生;若能量E未超出臨界值Eth,可視為數位輸入訊號由重放聲波A1’及/或A2’產生或由使用者18以較小音量產生。若能量E未超出臨界值Eth,不予處理;若能量E超出臨界值Eth,則由步驟307偵測數位輸入訊號Din是否包含浮水印,來判斷其為使用者18的輸入語音(不包含浮水印)或者為重放聲波(包含浮水印)。在步驟S307及S310,浮水印可例如為”Realtek”的ASCII碼(例如“0010 0101 0001 1100 0100 0101 1011”)。以下搭配第1、2、4圖解釋音訊處理方法300。第4圖為數位輸入訊號Din的示意圖,其中橫軸表示時間t,縱軸表示振幅M。
針對時間t1及t2之間的第一段數位輸入訊號Din1,處理器124判斷第一段數位輸入訊號Din1包含關鍵字(例如”增加音量”)(步驟S303),因此偵測第一段數位輸入訊號Din1的能量E(步驟S304)。時間t1及t2之間的時段可為3秒,因此第一段數位輸入訊號Din1包含144k(=48k*3)個取樣。第一段音訊輸入訊號Din1的面積越大則能量E越大表示音量越大。
接著,處理器124比較第一段數位輸入訊號Din1的能量E及臨界值Eth(步驟S306)。由於第一段數位輸入訊號Din1的能量E超出臨界值Eth,因此處理器124繼續判斷第一段數位輸入訊號Din1是否包含浮水印(步驟S307)。判斷數位輸入訊號Din是否包含浮水印的方法可如第6圖所示,在後續段落會詳細說明。由於處理器124判斷第一段數位輸入訊號Din1未包含浮水印,因此繼續步驟S308。
在步驟S308,處理器124依據關鍵字”增加音量”增加播放音量,藉以執行語音指令Cmd。在步驟S310,由於第一段數位輸入訊號Din1未包含浮水印,因此處理器124將浮水印嵌入預設語音數位訊號(例如”增加音量”的內建數位語音訊號)。在一些實施例中,嵌入浮水印的方式可為將P組(例如15組)浮水印位元(例如“0010 0101 0001 1100 0100 0101 1011”)嵌入預設語音數位訊號以產生第一組數位輸出訊號Dout。嵌入浮水印的方式可如第5圖所示,在後續段落會詳細說明。
在步驟S312,數位類比轉換器126將第一組數位輸出訊號Dout轉換為音訊輸出訊號Sout及Sout2。在步驟S314,傳送器128將音訊輸出訊號Sout1及Sout2
傳送至喇叭141及142以進行播放,並結束方法300。
針對時間t3及t4之間的第二段數位輸入訊號Din2,處理器124判斷第二段數位輸入訊號Din2包含關鍵字(例如”增加音量”)(步驟S303),因此偵測第二段數位輸入訊號Din2的能量E(步驟S304)。時間t3及t4之間的時段可為3秒,因此第二段數位輸入訊號Din2包含144k(=48k*3)個取樣。
接著,處理器124比較第二段數位輸入訊號Din2的能量E及臨界值Eth(步驟S306)。由於第二段數位輸入訊號Din2的能量E超出臨界值Eth,因此處理器124繼續判斷第二段數位輸入訊號Din2是否包含浮水印(步驟S307)。由於處理器124判斷第二段數位輸入訊號Din2包含浮水印,因此第二段數位輸入訊號Din2可能由較大音量的重放聲波A1’及/或A2’產生,接著結束方法300。
針對時間t5及t6之間的第三段數位輸入訊號Din3,處理器124判斷第三段數位輸入訊號Din3包含關鍵字(例如”增加音量”)(步驟S303),因此偵測第三段數位輸入訊號Din3的能量E(步驟S304)。時間t5及t6之間的時段可為3秒,因此第三段數位輸入訊號Din3包含144k(=48k*3)個取樣。
接著,處理器124比較第三段數位輸入訊號Din3的能量E及臨界值Eth(步驟S306)。由於第三段數位輸入訊號Din3的能量E未超出臨界值Eth,因此結束方法300。
第5圖係為第3圖中之浮水印嵌入步驟S310的流程圖。步驟S310包含步驟S500至S510,用以將P組浮水印位元嵌入一段符合裝置中服務語言設定的預
設數位語音訊號,以產生一組數位輸出訊號Dout。任何合理的步驟改變、順序或調整都落在本公開內容的範圍內。步驟S500至S510解釋如下:步驟S500:將預設數位語音訊號切為P段子音訊訊號,及將每段子音訊訊號分為I組時域取樣;步驟S502:對I組時域取樣進行時域至頻域轉換以產生I組初始轉換係數,每組初始轉換係數包含1個直流係數及N個交流係數;步驟S504:依據嵌入係數α及該組浮水印位元中之第i位元w(i)更新第i組初始轉換係數的第m係數Coef(i,m)以產生第i組更新轉換係數;步驟S506:判斷i是否小於I?若是,繼續步驟S508;若否,繼續步驟S510;步驟S508:將i更新為i+1;步驟S510:將更新後的P*I組更新轉換係數進行頻域至時域轉換以產生一組數位輸出訊號Dout;繼續步驟S312。
在步驟S500,處理器124先將要嵌入浮水印的預設數位語音訊號(例如”增加音量”的內建數位語音訊號)切為P段(例如P=15)子音訊訊號,每段子音訊訊號嵌入一組浮水印位元(例如“0010 0101 0001 1100 0100 0101 1011”),接著將每段子音訊訊號分為I組(例如I=28)時域取樣,每組時域取樣嵌入一個浮水印位元。依據前面段落內容,每段數位輸入訊號皆可包含144k個取樣,因此每段子音訊訊號可包含9600(=144000/15)個取樣,且每組時域取樣可包含342(=9600/28)個取樣。
在步驟S502,由第一段子音訊訊號開始,處理器124依據離散餘弦轉
換(discrete cosine transform,DCT)或其他種類的離散傅立葉轉換將28組時域取樣進行時域至頻域轉換以產生28組初始轉換係數,每組初始轉換係數嵌入一個浮水印位元。每組初始轉換係數包含1個直流係數Coef(i,0)及N個(例如31個)交流係數Coef(i,n),其中直流係數Coef(i,0)表示第i組初始轉換係數的直流係數,交流係數Coef(i,n)表示第i組初始轉換係數的第n交流係數,i及n為正整數,i≦I,n<N。在一些實施例中,處理器124可將第i組初始轉換係數的係數Coef(i,0)至Coef(i,N)儲存於本地記憶體。
在步驟S504,處理器124從i=1開始,更新第i組初始轉換係數的第m交流係數Coef(i,m)以產生第i組更新轉換係數的第m更新交流係數Coef’(i,m),i≦I,m<N,如公式Eq(1)所示:Coef’(i,m)=Coef(i,m)*(1+α*w(i)) Eq(1)
例如,嵌入係數α可為1,若i=1,該組浮水印位元(“0010 0101 0001 1100 0100 0101 1011”)中之第1位元為”0”,因此處理器124計算係數(1+α*w(i))為1(=1+1*0),及產生等於交流係數Coef(i,m)的更新交流係數Coef’(i,m)。處理器124可依據公式Eq(1)使用係數(1+α*w(i))產生一或多個更新交流係數。在一些實施例中,m為1,交流係數亦可稱為基頻係數,處理器124可依據公式Eq(1)使用係數(1+α*w(i))產生第i組更新轉換係數的更新交流係數Coef’(i,1)。在另一些實施例中,m為1至3,處理器124可依據公式Eq(1)使用係數(1+α*w(i))產生第i組更新轉換係數的更新交流係數Coef’(i,1)至Coef’(i,3)。大致而言,若嵌入係數α的值增加,則浮水印位元w(i)對係數Coef(i,m)的改變可能會隨之增加,增加浮水印位元的可偵測性,但使用者越容易察覺。此外,更新越低頻的交流係數所造成的訊號失真越小,使用者越不易察覺。
接著在步驟S506,由於i=1,則處理器124判定i小於I(1<28),因此在步驟S510,i被設為2(=1+1)。接著處理器124重複步驟S504至S510的迴圈直到i到達28為止,藉以更新一段子音訊訊號的I組初始轉換係數。此外,處理器124會對P段子音訊訊號重複步驟S502至S510以更新P段子音訊訊號的P*I組初始轉換係數。在步驟S512,處理器124依據反離散餘弦轉換(inverse discrete cosine transform,IDCT)或其他種類的反離散傅立葉轉換將更新後的P*I組初始轉換係數由頻域轉換至時域以產生一組數位輸出訊號Dout。在一些實施例中,處理器124可於本地記憶體保留係數Coef(0,0)至Coef(I,N)以供後續使用。
第6圖係為第3圖中的步驟S307之浮水印偵測的詳細流程圖。步驟S307包含步驟S600至S612,用以偵測一段數位輸入訊號Din中是否包含該組浮水印位元。任何合理的步驟改變、順序或調整都落在本公開內容的範圍內。步驟S600至S612解釋如下:步驟S600:將數位輸入訊號Din切為P段子音訊訊號,及將每段子音訊訊號分為I組時域取樣;步驟S602:對I組時域取樣進行時域至頻域轉換以產生I組後續轉換係數,每組後續轉換係數包含1個直流係數及N個交流係數;步驟S604:依據第i組初始轉換係數的直流係數Coef(i,0)及第i組後續轉換係數的直流係數Coef’(i,0)估計衰減係數δ;步驟S606:依據衰減係數δ、嵌入係數α、第i組初始轉換係數的第m交流係數Coef(i,m)、及第i組後續轉換係數的第m交流係數Coef’(i,m)產生一組估計浮水印位元的一第i估計位元w’(i);步驟S608:判斷i是否小於I?若是,繼續步驟S610;若否,繼續步驟
S612;步驟S612:將i更新為i+1;步驟S614:依據P組估計浮水印位元判斷數位輸入訊號Din是否包含浮水印。
在步驟S600,處理器124先將要進行浮水印偵測的一段數位輸入訊號Din切為P段(例如P=15)子音訊訊號,接著將每段子音訊訊號分為I組(例如I=28)時域取樣。依據前面段落內容,每段子音訊訊號可包含9600(=144000/15)個取樣,且每組時域取樣可包含342(=9600/28)個取樣。在步驟S602,由第一段子音訊訊號開始,處理器124依據離散餘弦轉換(discrete cosine transform,DCT)或其他種類的離散傅立葉轉換將28組時域取樣進行時域至頻域轉換以產生28組後續轉換係數,每組後續轉換係數1個直流係數Coef(i,0)及N個(例如31個)交流係數Coef(i,n),其中直流係數Coef(i,0)表示第i組後續轉換係數的直流係數,交流係數Coef(i,n)表示第i組後續轉換係數的第n交流係數,i及n為正整數,i≦I,n<N。在一些實施例中,處理器124可將第i組後續轉換係數的係數Coef’(i,0)至Coef’(i,N)儲存於本地記憶體。
在步驟S604,處理器124從i=1開始計算第i組後續轉換係數的衰減係數δ,衰減係數δ相關於聲波傳播的衰減程度。處理器124從本地記憶體獲取第i組初始轉換係數的直流係數Coef(i,0)及第i組後續轉換係數的直流係數Coef’(i,0),並依據以下公式Eq(2)使用直流係數Coef(i,0)及直流係數Coef’(i,0)計算衰減係數δ。
δ=Coef’(i,0)/Coef(i,0) Eq(2)
由於直流成分在聲波傳播時失真最小,因此依據直流係數Coef’(i,0)
所產生的衰減係數δ較準確。
在步驟S606,處理器124從本地記憶體獲取第i組初始轉換係數的第m交流係數Coef(i,m)及第i組後續轉換係數的第m交流係數Coef’(i,m),及依據公式Eq(3)使用嵌入係數α、衰減係數δ、交流係數Coef(i,m)及交流係數Coef’(i,m)產生一組估計浮水印位元中之第i估計位元w’(i)。
w'(i)=(Coef’(i,m)*α)/((δ*Coef(i,m))-1) Eq(3)
處理器124可依據公式Eq(3)使用一或多個交流係數產生第i估計位元w’(i)。在一些實施例中,處理器124可依據公式Eq(3)使用1個交流係數中產生第i估計位元w’(i)。舉例而言,m為1,處理器124可依據公式Eq(3)使用交流係數Coef(i,1)及交流係數Coef’(i,1)產生第i估計位元w’(i)。
在另一些實施例中,處理器124可依據公式Eq(3)使用多個交流係數中產生第i估計位元w’(i)。舉例而言,m為1至3,處理器124可依據公式Eq(3)使用交流係數Coef(i,1)至Coef(i,3)及交流係數Coef’(i,1)至Coef’(i,3)分別產生3個初始第i位元,及依據3個初始第i位元產生第i估計位元w’(i),例如取3個初始第i位元的眾數、平均數或其他合適的統計數值作為第i估計位元w’(i)。
接著在步驟S608,由於i=1,則處理器124判定i小於I(1<28),因此在步驟S610,i被設為2(=1+1),接著處理器124重複步驟S604至S610的迴圈直到i到達28為止,藉以產生1組估計浮水印位元的28個估計位元。此外,處理器124會對剩餘的第2段至第P段子音訊訊號重複步驟S602至S610以產生剩餘的14組估計浮水印位元。
在步驟S612,處理器124將15組估計浮水印位元和1組真正的浮水印位元相比以判斷該段數位輸入訊號Din是否包含浮水印,該組真正的浮水印位元可儲存於本地記憶體。處理器124可分別比較1組估計浮水印位元的該I個估計位元及該組浮水印位元的該I個位元以產生相似度,及對於15組估計浮水印位元產生15個相似度,相似度可以百分比表示。若至少一個相似度超出預設比例,則處理器124可判定該段數位輸入訊號Din包含浮水印。若15組估計浮水印位元的15個相似度皆未超出預設比例,則判定該段數位輸入訊號Din不包含浮水印。例如,預設比例可為70%,若該組真正的浮水印位元為“0010 0101 0001 1100 0100 0101 1011”,第一組估計浮水印位元為”0101 0110 0011 1100 0000 0001 0011”,粗體數字代表錯誤位元,因此第一組估計浮水印位元包含9個錯誤位元,相似度為68%,未超出預設比例(68%<70%)。若第二組估計浮水印位元為”0011 0110 0011 1100 0000 0001 0011”,則第二組估計浮水印位元包含7個錯誤位元,相似度為75%,超出預設比例(75%>70%),因此處理器124判定該段數位輸入訊號Din包含浮水印。
實施例提供以浮水印為基礎的音訊處理方法及音訊播放器,將一組浮水印位元嵌入符合裝置中服務語言設定的數位語音音訊,以供使用者確認,藉以提高系統可用性及使用性。
以上所述僅為本發明之較佳實施例,凡依本發明申請專利範圍所做之均等變化與修飾,皆應屬本發明之涵蓋範圍。
1:音訊系統
10:遙控器
100:麥克風
102:傳送器
12:音訊播放器
141,142:喇叭
161,162:障礙物
18:使用者
A1,A2,A1’,A2’:重放聲波
Cmd:語音指令
Sin:音訊輸入訊號
Sout1,Sout2:音訊輸出訊號
Claims (10)
- 一種以浮水印為基礎的音訊處理方法,適用於一音訊播放器,該音訊播放器包含一接收器、一類比數位轉換器、一處理器、一數位類比轉換器及一傳送器,該方法包含:該接收器接收一音訊輸入訊號;該類比數位轉換器將該音訊輸入訊號由類比轉換為數位形式以產生一數位輸入訊號;該處理器偵測該數位輸入訊號的一能量;若該能量超出一臨界值,該處理器便偵測該數位輸入訊號中是否包含一浮水印;若該數位輸入訊號中未包含該浮水印,則該處理器將該浮水印嵌入一預設數位語音訊號以產生一數位輸出訊號;該數位類比轉換器將該數位輸出訊號由數位轉換為類比形式以產生一音訊輸出訊號;及該傳送器輸出該音訊輸出訊號以進行播放,其中,該預設數位語音訊號之來源不同於該數位輸入訊號。
- 如請求項1所述之方法,其中該浮水印包含一組浮水印位元,該組浮水印位元包含I個位元,I為一正整數;及該處理器將該預設數位語音訊號嵌入該浮水印包含:將該預設數位訊號切為P段子音訊訊號,P為一正整數,及將每段子音訊訊號分為I組時域取樣;對該I組時域取樣進行一時域至頻域轉換以產生I組初始轉換係數,每組 初始轉換係數包含一直流係數及N個交流係數,N為一正整數;依據一嵌入係數及該組浮水印位元中之一第i位元更新一第i組初始轉換係數的一第m交流係數以產生一第i組更新轉換係數,i為一正整數且i小於或等於I,m為一正整數且m小於或等於N;及依據P*I組更新轉換係數進行一頻域至時域轉換以產生該數位輸出訊號。
- 如請求項2所述之方法,其中m=1,且該第m初始交流係數為一基頻係數。
- 如請求項1所述之方法,其中該數位輸入訊號包含一關鍵字,且該預設數位語音訊號相應於該關鍵字。
- 如請求項4所述之方法,另包含:若該能量未超出該臨界值,該處理器不執行該關鍵字的一相應功能。
- 如請求項1所述之方法,該類比數位轉換器將該音訊輸入訊號由類比轉換為數位形式以產生該數位輸入訊號包含:該類比數位轉換器將該音訊輸入訊號由類比轉換為數位形式以產生一數位化的音訊輸入訊號;及對該數位化的音訊輸入訊號進行分段以產生該數位輸入訊號。
- 如請求項1所述之方法,其中該處理器便偵測該數位輸入訊號中是否包含該浮水印包含: 將該數位輸入訊號切為P段子音訊訊號,及將每段子音訊訊號分為I組時域取樣;將該I組時域取樣進行一時域至頻域轉換以產生I組後續轉換係數,每組後續轉換係數具有一直流係數及N個交流係數,N為一正整數;依據一第i組後續轉換係數的該直流係數及該第i組初始轉換係數的該直流係數估計一衰減係數;依據該衰減係數、該嵌入係數、該第i組後續轉換係數的一第m交流係數、及該第i組初始轉換係數的該第m交流係數產生一組估計浮水印位元的一第i估計位元;及依據P組估計浮水印位元判斷該數位輸入訊號是否包含該浮水印。
- 如請求項7所述之方法,其中依據該P組估計浮水印位元判斷該數位輸入訊號是否包含該組浮水印位元包含:分別比較該組估計浮水印位元的該I個估計位元及該組浮水印位元的該I個位元以產生一相似度;及若該相似度超出一預設比例,則判定該數位輸入訊號包含該浮水印。
- 如請求項7所述之方法,其中依據該P組估計浮水印位元判斷該數位輸入訊號是否包含該組浮水印位元包含:分別比較該組估計浮水印位元的該I個估計位元及該組浮水印位元的該I個位元以產生一相似度;及若該P組估計浮水印位元的P個相似度皆未超出一預設比例,則判定該數位輸入訊號不包含該浮水印。
- 一種以浮水印為基礎的音訊播放器,包含:一接收器,用以接收一音訊輸入訊號;一類比數位轉換器,耦接於該接收器,用以將該音訊輸入訊號由類比轉換為數位形式以產生一數位輸入訊號;一處理器,耦接於該類比數位轉換器,用以偵測該數位輸入訊號的一能量,及若該能量超出一臨界值,便偵測該數位輸入訊號中是否包含一浮水印,若該數位輸入訊號中未包含該浮水印,則該處理器將該浮水印嵌入一預設數位語音訊號,以產生一數位輸出訊號;一數位類比轉換器,耦接於該處理器,用以將該數位輸出訊號由數位轉換為類比形式以產生一音訊輸出訊號;及一傳送器,耦接於該數位類比轉換器,用以輸出該音訊輸出訊號以進行播放其中,該預設數位語音訊號之來源不同於該數位輸入訊號。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW112106274A TWI854496B (zh) | 2023-02-21 | 2023-02-21 | 以浮水印為基礎的音訊處理方法及音訊播放器 |
| US18/414,474 US12579977B2 (en) | 2023-02-21 | 2024-01-17 | Watermark-based audio processing method and an audio player utilizing the same |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW112106274A TWI854496B (zh) | 2023-02-21 | 2023-02-21 | 以浮水印為基礎的音訊處理方法及音訊播放器 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TWI854496B true TWI854496B (zh) | 2024-09-01 |
| TW202435201A TW202435201A (zh) | 2024-09-01 |
Family
ID=92304538
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW112106274A TWI854496B (zh) | 2023-02-21 | 2023-02-21 | 以浮水印為基礎的音訊處理方法及音訊播放器 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US12579977B2 (zh) |
| TW (1) | TWI854496B (zh) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI337501B (en) * | 2006-06-28 | 2011-02-11 | Cyberlink | Systems and methods for embedding scene processing information in a multimedia source |
| TW201232323A (en) * | 2011-01-21 | 2012-08-01 | Hon Hai Prec Ind Co Ltd | Electronic device and method of audio data copyright protection thereof |
| TW201532035A (zh) * | 2014-02-05 | 2015-08-16 | Dolby Int Ab | 預測式fm立體聲無線電雜訊降低 |
| US20180018748A1 (en) * | 2014-08-20 | 2018-01-18 | Verance Corporation | Content management based on dither-like watermark embedding |
Family Cites Families (33)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10211367A (ja) | 1997-01-28 | 1998-08-11 | Hachiro Hirakawa | 理容鋏 |
| US7020285B1 (en) * | 1999-07-13 | 2006-03-28 | Microsoft Corporation | Stealthy audio watermarking |
| US20040059918A1 (en) * | 2000-12-15 | 2004-03-25 | Changsheng Xu | Method and system of digital watermarking for compressed audio |
| US7222071B2 (en) * | 2002-09-27 | 2007-05-22 | Arbitron Inc. | Audio data receipt/exposure measurement with code monitoring and signature extraction |
| US7460684B2 (en) * | 2003-06-13 | 2008-12-02 | Nielsen Media Research, Inc. | Method and apparatus for embedding watermarks |
| EP1764780A1 (en) * | 2005-09-16 | 2007-03-21 | Deutsche Thomson-Brandt Gmbh | Blind watermarking of audio signals by using phase modifications |
| US8156433B2 (en) * | 2006-09-05 | 2012-04-10 | Villanova University | Embodied music system |
| EP2387764B1 (en) * | 2009-01-13 | 2015-11-25 | Capricode Oy | A method and system embedding a non-detectable fingerprint in a digital media file |
| US10008212B2 (en) * | 2009-04-17 | 2018-06-26 | The Nielsen Company (Us), Llc | System and method for utilizing audio encoding for measuring media exposure with environmental masking |
| EP2362385A1 (en) * | 2010-02-26 | 2011-08-31 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Watermark signal provision and watermark embedding |
| US20130331971A1 (en) * | 2012-06-10 | 2013-12-12 | Eran Bida | Watermarking and using same for audience measurement |
| US9711152B2 (en) * | 2013-07-31 | 2017-07-18 | The Nielsen Company (Us), Llc | Systems apparatus and methods for encoding/decoding persistent universal media codes to encoded audio |
| WO2015117068A1 (en) * | 2014-01-31 | 2015-08-06 | Sparcq, Inc. | Media content marking and tracking methods and apparatus |
| US9912986B2 (en) * | 2015-03-19 | 2018-03-06 | Sony Corporation | System for distributing metadata embedded in video |
| EP3133597A1 (en) * | 2015-08-19 | 2017-02-22 | Tracklib Holdings AB | Method and apparatus for watermarking of audio tracks |
| US10102602B2 (en) * | 2015-11-24 | 2018-10-16 | The Nielsen Company (Us), Llc | Detecting watermark modifications |
| CN105976823B (zh) * | 2016-06-22 | 2019-06-25 | 华中师范大学 | 基于相位编码的自适应音频水印方法及系统 |
| US10062134B2 (en) * | 2016-06-24 | 2018-08-28 | The Nielsen Company (Us), Llc | Methods and apparatus to perform symbol-based watermark detection |
| WO2018211326A1 (en) * | 2017-05-19 | 2018-11-22 | Himeta Technologies S.P.R.L. | Methods of fingerprint-based watermarking of audio files |
| US10531148B2 (en) * | 2017-06-30 | 2020-01-07 | The Nielsen Company (Us), Llc | Methods and apparatus to detect audio engineering problems using identification of isolated watermarks |
| US10923133B2 (en) * | 2018-03-21 | 2021-02-16 | The Nielsen Company (Us), Llc | Methods and apparatus to identify signals using a low power watermark |
| CN108648761B (zh) * | 2018-05-10 | 2023-05-09 | 北京泛融科技有限公司 | 一种在音频数字水印中嵌入区块链账本的方法 |
| US10818303B2 (en) * | 2018-12-19 | 2020-10-27 | The Nielsen Company (Us), Llc | Multiple scrambled layers for audio watermarking |
| US20200312340A1 (en) * | 2019-03-29 | 2020-10-01 | HCL America, Inc. | Audio signal chain identification |
| CN110047497B (zh) * | 2019-05-14 | 2021-06-11 | 腾讯科技(深圳)有限公司 | 背景音频信号滤除方法、装置及存储介质 |
| CN111091841B (zh) * | 2019-12-12 | 2022-09-30 | 天津大学 | 一种基于深度学习的身份认证音频水印算法 |
| US11922532B2 (en) * | 2020-01-15 | 2024-03-05 | Digimarc Corporation | System for mitigating the problem of deepfake media content using watermarking |
| TWI790682B (zh) * | 2021-07-13 | 2023-01-21 | 宏碁股份有限公司 | 聲音浮水印的處理方法及語音通訊系統 |
| US20240235847A1 (en) * | 2021-07-22 | 2024-07-11 | John Elijah JACOBSON | Systems and methods employing scene embedded markers for verifying media |
| US11564003B1 (en) * | 2021-09-20 | 2023-01-24 | The Nielsen Company (Us), Llc | Systems, apparatus, and methods to improve watermark detection in acoustic environments |
| US12327295B2 (en) * | 2021-12-29 | 2025-06-10 | The Nielsen Company (Us), Llc | Methods, systems, apparatus, and articles of manufacture to perform time alignment for watermarks |
| CN116312510A (zh) * | 2023-01-31 | 2023-06-23 | 苏州奇梦者科技有限公司 | 远端会议装置的近端控制方法、远程会议系统及相关装置 |
| US12322401B2 (en) * | 2023-06-05 | 2025-06-03 | The Nielsen Company (Us), Llc | Use of symbol strength and verified watermark detection as basis to improve media-exposure detection |
-
2023
- 2023-02-21 TW TW112106274A patent/TWI854496B/zh active
-
2024
- 2024-01-17 US US18/414,474 patent/US12579977B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI337501B (en) * | 2006-06-28 | 2011-02-11 | Cyberlink | Systems and methods for embedding scene processing information in a multimedia source |
| TW201232323A (en) * | 2011-01-21 | 2012-08-01 | Hon Hai Prec Ind Co Ltd | Electronic device and method of audio data copyright protection thereof |
| TW201532035A (zh) * | 2014-02-05 | 2015-08-16 | Dolby Int Ab | 預測式fm立體聲無線電雜訊降低 |
| US20180018748A1 (en) * | 2014-08-20 | 2018-01-18 | Verance Corporation | Content management based on dither-like watermark embedding |
Also Published As
| Publication number | Publication date |
|---|---|
| US12579977B2 (en) | 2026-03-17 |
| US20240282302A1 (en) | 2024-08-22 |
| TW202435201A (zh) | 2024-09-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN105103222B (zh) | 用于响度和动态范围控制的元数据 | |
| CN104584121B (zh) | 音频水印的缩混补偿方法、系统及装置 | |
| CN101926181B (zh) | 用于处理音频信号的方法和装置 | |
| WO2015041070A1 (ja) | 符号化装置および方法、復号化装置および方法、並びにプログラム | |
| JP5247148B2 (ja) | 残響サウンド信号のコーディング | |
| EP1110204B1 (en) | Adaptation of a speech recognizer from corrected text | |
| JP2010518460A (ja) | オーディオ信号の処理方法及び装置 | |
| CN1823482B (zh) | 水印嵌入方法和装置 | |
| KR101312451B1 (ko) | 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치 | |
| Lazic et al. | Communication over an acoustic channel using data hiding techniques | |
| TWI854496B (zh) | 以浮水印為基礎的音訊處理方法及音訊播放器 | |
| JP2005530213A (ja) | 音声信号処理装置 | |
| TWI447708B (zh) | An audio signal processing system, an audio signal decoding device, and a processing method and program thereof | |
| CN118590686A (zh) | 以浮水印为基础的音频处理方法及音频播放器 | |
| US6766290B2 (en) | Voice responsive audio system | |
| WO2017016363A1 (zh) | 数字音频信号处理的方法 | |
| KR102605961B1 (ko) | 고해상도 오디오 코딩 | |
| CN113302684B (zh) | 高分辨率音频编解码 | |
| JP7262593B2 (ja) | ハイレゾリューションオーディオ符号化 | |
| US12562179B2 (en) | Information processing device, information processing method, information processing system, and program | |
| EP1112566B1 (en) | Speech recognition device with transfer means | |
| US8306828B2 (en) | Method and apparatus for audio signal expansion and compression | |
| CN113348507B (zh) | 高分辨率音频编解码 | |
| Kondo et al. | A Frame Synchronization Method for Audio Watermarks Robust Against Analog Aerial Transmission. | |
| JP2008026662A (ja) | データ記録装置、データ記録方法及びデータ記録プログラム |