TW201411577A

TW201411577A - 點讀裝置之語音處理方法

Info

Publication number: TW201411577A
Application number: TW101132548A
Authority: TW
Inventors: Cheng-Chih Chien; I-Rong Chien; Si-Ken Lee; Chih-Yung Cheng; Joseph Chien
Original assignee: Ophaya Electronics Corp
Priority date: 2012-09-06
Filing date: 2012-09-06
Publication date: 2014-03-16

Abstract

本發明為有關一種點讀裝置之語音處理方法，其語音處理方法為包括，將讀取頭擷取之學習紙具條碼資料傳輸至微處理器比對，並讓發聲模組發出問題語音，且以微處理器將麥克風擷取使用者說出的答案進行類比數位轉換，再將數位語音資料與內部關鍵字語清單比對得到正確性，並對數位語音資料進行語音分幀、端點檢測、特徵提取及動態時間校正匹配得到相似度，藉此比對得到評分語音資料讓發聲模組發出評分語音，因使用者由學習紙具上的複數答案圖示中擇一說出答案，便可縮小語音辨識的範圍，讓低階微處理器即可運作，更因可發出量化之評分語音，進而可達到降低產品生產成本及改善使用者發音之目的。

Description

點讀裝置之語音處理方法

本發明係提供一種點讀裝置之語音處理方法，尤指藉由學習紙具上的複數答案圖示讓使用者擇一說出答案，藉此縮小語音辨識的範圍讓低階微處理器就可適用，且可利用發聲模組發出量化之評分語音，進而達到降低產品生產成本及學習與糾正使用者發音之目的。

按，隨著科技不斷的進步及生活水準與環境的改變，幼兒或兒童所接觸的玩具，便從以前的橡皮筋、紙牌、塑膠玩具或昆蟲等，轉變為具有聲光效果之電子玩具，但隨著父母對於學習及教育的注重程度不斷的增加，父母總是希望幼兒或兒童不僅是在玩玩具，更可在遊戲的過程中同時進行學習，由於玩具對於幼兒或兒童的吸引力比較大，所以透過這樣的方式可以提高幼兒及兒童學習的興趣。

所以，便有廠商對此作出了研發，其學習玩具為具有點讀筆及學習紙具(如書本或卡片)，幼兒或兒童使用時，為利用點讀筆點擊學習紙具上的條碼，透過辨識的方式將條碼解碼，再與內部儲存的資料庫進行比對得到語音資料，即可發出相對應的語音，藉此讓幼兒或兒童可在利用點讀筆點擊學習紙具上的圖文後，讓點讀筆發出相對應於圖文的語音，如點擊大象圖示便會發出大象的中文或英文名稱語音，如此一來，幼兒或兒童便可將圖文跟名稱連結，更可學習圖文所代表的名稱發音。

然而，其操作方式跟功能終究還是十分的單一，導致幼兒或兒童很快就會完成學習，且無法作變化，幼兒或兒童便很容易就提不起興致去使用，導致此點讀筆及學習紙具很快就不被幼兒或兒童使用，是以，創作人便針對此狀況研發出可進行語音辨識來達到互動之點讀裝置，然而，一般的語音辨識系統因為需要將幼兒或兒童所說出的任一名詞、片語或句子都擷取並比對辨識，所以不僅需要龐大的資料庫，且語音辨識系統的處理器也需要高速的計算能力，才能讓幼兒或兒童說話後點讀筆可於短時間內就完成辨識並發出相對應的語音，否則幼兒或兒童便會將注意力移轉開，將會產生學習效果不良的問題，然而高速的計算能力及龐大的資料庫卻是代表著點讀裝置中所設置的微處理器及記憶模組需要十分的高階，且記憶模組又需要具有很大的容量，但高階微處理器及記憶模組代表著購入或生產的成本十分高昂，因而會讓點讀裝置整體的製造成本大幅度的提高，將導致產品在市場中的接受度降低，上述習用之點讀裝置，因具有諸多問題與缺失，此即為本發明人與從事此行業者所亟欲改善之目標所在。

故，發明人有鑑於上述缺失，乃蒐集相關資料，經由多方評估及考量，並以從事於此行業累積之多年經驗，經由不斷試作及修改，始設計出此種點讀裝置之語音處理方法的發明專利者。

本發明之主要目的乃在於，該點讀裝置以讀取頭點選學習紙具上的微點條碼後，微處理器比對並讓發聲模組發出問題語音，且使用者由學習紙具上的複數答案圖示中擇一說出答案後，微處理器接收麥克風擷取之類比語音信號轉換為數位語音資料後，來與內部關鍵字語清單進行比對與辨識得到正確性，因縮小了語音辨識的範圍，所以用低階微處理器便可進行處理，進而達到降低產品生產成本的目的。

本發明之次要目的乃在於，該微處理器比對得到正確性後，再對數位語音資料進行語音分幀處理、端點檢測、特徵提取及動態時間校正匹配之處理，便可得到二者的相似度，微處理器再以正確性及相似度與記憶模組資料庫中比對以得到量化之評分語音，再利用發聲模組發出量化之評分語音，便可改善使用者的發音來達到學習與糾正的效果。

本發明之另一目的乃在於，該點讀裝置內部中以供識別的關鍵字語清單是可以動態編輯的，只需要將設定的關鍵字語清單以字元的形式傳送到晶片內部，就可以利用關鍵字語清單來對使用者說出的答案進行比對與辨識，進而可達到適用於不同用途與使用狀況的目的。

為達成上述目的及功效，本發明所採用之技術手段及其構造，茲繪圖就本發明之較佳實施例詳加說明其特徵與功能如下，俾利完全瞭解。

請參閱第一、二圖所示，係為本發明之方塊圖、步驟流程圖，由圖中可以清楚看出，其點讀裝置係包括微處理器1、讀取頭11、記憶模組12、發聲模組13、麥克風14及供電源15，該微處理器1電性連接有讀取頭11、記憶模組12、發聲模組13及麥克風14，而供電源15為供應點讀裝置運作所需電力。

其點讀裝置進行語音辨識之步驟流程為包括：

(501)點讀裝置利用讀取頭11點選學習紙具2上的微點條碼21，讀取頭11將條碼資料傳輸至微處理器1，微處理器1將條碼資料與記憶模組12中資料庫121的語音資料比對後，便將符合的問題語音資料傳輸至發聲模組13發出問題語音。

(502)麥克風14擷取使用者由學習紙具2上的複數答案圖示22中擇一發出之答案語音後，麥克風14擷取答案語音後，輸出類比語音信號至微處理器1。

(503)微處理器1將類比語音信號轉換為數位語音資料後，先與內部關鍵字語清單進行比對與辨識，得到回答之正確性。

(504)微處理器1對數位語音資料進行語音分幀，依照每24ms一幀(Frame)方式將連續數位語音資料進行分隔。

(505)微處理器1對數位語音資料進行端點檢測，透過判定每幀數位語音資料的能量及過零率參數，檢測待識別數位語音資料的開始幀和結束幀。

(506)微處理器1對數位語音資料進行特徵提取，提取每一幀數位語音資料的特徵參數。

(507)微處理器1進行動態時間校正匹配，將提取的特徵參數與記憶模組12之資料庫121中儲存的特徵模型進行比對，得到二者的相似度。

(508)微處理器1再根據正確性及相似度由記憶模組12之資料庫121中比對得到相對應的評分語音資料。

(509)微處理器1再將評分語音資料信號傳輸至發聲模組13，讓發聲模組13發出評分語音。

請參閱第一、二、三、四、五圖所示，係為本發明之方塊圖、步驟流程圖、點讀裝置點選時之示意圖、麥克風擷取答案語音時之示意圖、發聲模組發出評分語音之示意圖，由圖中可以清楚看出，使用者在操作點讀裝置時，係將點讀裝置之讀取頭11點選學習紙具2(如書本或卡片)上的微點條碼21，讀取頭11將條碼資料傳輸至微處理器1來與記憶模組12中資料庫121的語音資料比對，微處理器1再將比對得到的問題語音資料傳輸至發聲模組13發出問題語音(如：哪一個是世界上最大的動物？)，使用者便可得到問題的語音提示，此時，因為學習紙具2上僅具有複數個答案圖示22(如2個、3個、4個或5個，上述問題的答案可為大象、恐龍與鯨魚選項)，所以使用者便會從複數個答案圖示22中擇一進行回答，藉此讓語音辨識的範圍縮小，便可加快微處理器1的處理速度，所以微處理器1就可使用低階的產品，進而達到降低產品生產成本的目的。

當使用者說出答案之後，麥克風14便會擷取答案語音並輸出類比語音信號至微處理器1，微處理器1將類比語音信號轉換為數位語音資料後，先與內部關鍵字語清單進行比對與辨識，得到回答之正確性，再對數位語音資料進行語音分幀處理、端點檢測、特徵提取及動態時間校正匹配(DTW，Discrete-Time Warping)之處理，微處理器1係透過每24ms一幀(Frame)方式將連續數位語音資料進行分隔，透過判定每幀數位語音資料的能量及過零率參數，檢測待識別數位語音資料的開始幀和結束幀，再提取每一幀數位語音資料的特徵參數，再將提取的特徵參數與記憶模組12之資料庫121中儲存的特徵模型進行比對，得到二者的相似度，再根據正確性及相似度由記憶模組12之資料庫121中比對得到相對應的評分語音資料，便可將評分語音資料信號傳輸至發聲模組13來發出評分語音；因使用者是從複數個答案圖示22中擇一進行回答，便可縮小語音辨識的範圍，記憶模組12內也不須儲存龐大的資料庫121，便可使用低階的記憶模組12產品，而讓產品生產成本降低。

上述每一幀數位語音資料的特徵參數，為利用一個音框內所擷取之語音波形(請同時參閱第六、七圖所示，橫軸為取樣數，縱軸為取樣之語音振幅)，並透過複數個取樣值(通常稱為線性預估係數，Linear Prediction Coefficient，簡稱LPC)，推算出線性預估的特徵參數，其LPC特徵參數模型之頻率響應曲線雖然比原始語音信號的頻譜曲線較為平滑，但LPC特徵參數模型可以充分描述出語音的主要特徵，所以透過此方式計算出複數個線性預估係數後，即可做為此段語音之特徵參數。

另，上述發聲模組13所發出的評分語音，因為包含了正確性及相似度的比對結果，所以使用者除了可以得知回答的正確與否，更可透過相似度的評分語音，其可針對使用者所發出的名詞、片語或句子進行量化之評分，藉此讓使用者得知發音的相似程度，進而可改善使用者的發音，來達到學習與糾正的效果；此外，亦可設定預定之相似度標準，當使用者發音差距超過預定之相似度標準，則給予修正的建議(如該片語或詞彙的低相似度區段部份，可以請使用者重複練習、再加強此部分的發音或給出發音分析與改進建議等)。

再者，為了因應不同的用途與使用狀況(如具複數個學習紙具2或將點讀裝置設置於絨毛玩具內等)，點讀裝置之微處理器1內部中以供識別的關鍵字語清單是可以動態編輯的，只需要設定好要識別的關鍵字語清單，並把關鍵字語清單以字元的形式傳送到晶片內部，就可以利用關鍵字語清單來對使用者說出的答案進行比對與辨識。

上述之讀取頭11結構及微點條碼21之型式，以及二者之間如何讀取及比對判斷，係為習知之技術，且該細部構成非本案發明要點，茲不再贅述。

上述本發明之點讀裝置之語音處理方法於實際使用時，為具有下列各項優點，如：

(一)該點讀裝置2以讀取頭11點選學習紙具2上的微點條碼21後，微處理器1比對並讓發聲模組13發出問題語音，且使用者由學習紙具2上的複數答案圖示22中擇一說出答案後，微處理器1接收麥克風14擷取之類比語音信號，並轉換為數位語音資料來與內部關鍵字語清單進行比對與辨識便可得到回答之正確性，由於語音辨識的範圍縮小，所以低階微處理器1便可符合產品需求，進而達到降低產品生產成本的目的。

(二)該微處理器1將類比語音信號轉換為數位語音資料後，先與內部關鍵字語清單進行比對與辨識，得到回答之正確性，再對數位語音資料進行語音分幀處理、端點檢測、特徵提取及動態時間校正匹配之處理，便可得到二者的相似度，再利用發聲模組13發出由記憶模組12資料庫121中比對得到的評分語音，因為可進行量化之評分，便可改善使用者的發音來達到學習與糾正的效果。

(三)該點讀裝置內部中以供識別的關鍵字語清單是可以動態編輯的，只需要設定好要識別的關鍵字語清單，並把關鍵字語清單以字元的形式傳送到晶片內部，就可以利用關鍵字語清單來對使用者說出的答案進行比對與辨識，進而可達到適用於不同用途與使用狀況的目的。

故，本發明為主要針對點讀裝置之語音處理方法，而可藉由讀取頭點選學習紙具的微點條碼，且微處理器比對並讓發聲模組發出問題語音，讓使用者由學習紙具上的複數答案圖示中擇一說出答案，由於答案受限便會縮小語音辨識的範圍，所以低階微處理器便可運作，進而達到降低產品生產成本的目的為主要保護重點，乃僅使微處理器對數位語音資料進行語音分幀處理、端點檢測、特徵提取及動態時間校正匹配之處理得到相似度，再利用發聲模組發出由記憶模組中比對得到的量化之評分語音，藉此達到學習與糾正使用者發音之優勢，惟，以上所述僅為本發明之較佳實施例而已，非因此即侷限本發明之專利範圍，故舉凡運用本發明說明書及圖式內容所為之簡易修飾及等效結構變化，均應同理包含於本發明之專利範圍內，合予陳明。

綜上所述，本發明上述之點讀裝置之語音處理方法於實施、操作時，為確實能達到其功效及目的，故本發明誠為一實用性優異之發明，為符合發明專利之申請要件，爰依法提出申請，盼審委早日賜准本案，以保障發明人之辛苦研發，倘若鈞局貴審委有任何稽疑，請不吝來函指示，發明人定當竭力配合，至感德便。

1‧‧‧微處理器

11‧‧‧讀取頭

12‧‧‧記憶模組

121‧‧‧資料庫

13‧‧‧發聲模組

14‧‧‧麥克風

15‧‧‧供電源

2‧‧‧學習紙具

21‧‧‧微點條碼

22‧‧‧答案圖示

第一圖係為本發明之方塊圖。

第二圖係為本發明之步驟流程圖。

第三圖係為本發明點讀裝置點選時之示意圖。

第四圖係為本發明麥克風擷取答案語音時之示意圖。

第五圖係為本發明發聲模組發出評分語音之示意圖。

第六圖係為本發明語音取樣片段之波形圖。

第七圖係為本發明語音取樣片段及線性預估係數之波形圖。

Claims

一種點讀裝置之語音處理方法，其點讀裝置係包括微處理器、讀取頭、記憶模組、發聲模組、麥克風及供電源，該微處理器電性連接有讀取頭、記憶模組、發聲模組及麥克風，而供電源為供應點讀裝置運作所需電力，點讀裝置為與具有微點條碼及複數答案圖示之學習紙具搭配使用，其點讀裝置語音處理方法為包括；(A01)點讀裝置之讀取頭點選學習紙具上的微點條碼，讀取頭將條碼資料傳輸至微處理器，微處理器將條碼資料與記憶模組中資料庫的語音資料比對後，便將符合的問題語音資料傳輸至發聲模組發出問題語音；(A02)麥克風擷取使用者由學習紙具上的複數答案圖示中擇一發出之答案語音後，輸出類比語音信號至微處理器；(A03)微處理器將類比語音信號轉換為數位語音資料後，先與內部關鍵字語清單進行比對與辨識，得到回答之正確性；(A04)微處理器再對數位語音資料進行語音分幀；(A05)微處理器對數位語音資料進行端點檢測；(A06)微處理器對數位語音資料進行特徵提取；(A07)微處理器進行動態時間校正匹配，得到二者的相似度；(A08)微處理器再根據正確性及相似度由記憶模組之資料庫中比對得到相對應的評分語音資料；(A09)微處理器再將評分語音資料信號傳輸至發聲模組，讓發聲模組發出評分語音。
如申請專利範圍第1項所述之點讀裝置之語音處理方法，其中該微處理器再對數位語音資料進行語音分幀時，為依照每24ms一幀(Frame)方式將連續數位語音資料進行分隔。
如申請專利範圍第1項所述之點讀裝置之語音處理方法，其中該微處理器對數位語音資料進行端點檢測時，為透過判定每幀數位語音資料的能量及過零率參數，檢測待識別數位語音資料的開始幀和結束幀。
如申請專利範圍第1項所述之點讀裝置之語音處理方法，其中該微處理器對數位語音資料進行特徵提取時，為提取每一幀數位語音資料的特徵參數。
如申請專利範圍第1項所述之點讀裝置之語音處理方法，其中該微處理器進行動態時間校正匹配時，為將提取的特徵參數與記憶模組之資料庫中儲存的特徵模型進行比對。
如申請專利範圍第1項所述之點讀裝置之語音處理方法，其中該發聲模組所發出的評分語音，包含了正確性及相似度的比對結果，且相似度的比對結果可為使用者所發出的片語或句子之量化評分。
如申請專利範圍第1項所述之點讀裝置之語音處理方法，其中該微處理器內部的關鍵字語清單，是將設定的關鍵字語清單以字元的形式傳送到晶片內部。