TWI342010B

TWI342010B - Speech recognition method and system with intelligent classification and adjustment

Info

Publication number: TWI342010B
Application number: TW095146777A
Authority: TW
Inventors: Jui Chang Wang
Original assignee: Delta Electronics Inc
Priority date: 2006-12-13
Filing date: 2006-12-13
Publication date: 2011-05-11
Also published as: EP1933301A2; US20080147396A1; EP1933301A3; TW200826064A

Description

1342010 九、發明說明：【發明所屬之技術領域】本案係為一種語音辨識方法，尤指一種具有智慧型鑑別調適功能之語音辨識方法。【先前技術】使用聲控指令的語音辨識系統的最大問題，就是辨識率不是百分之一百準確。辨識的錯誤會增加許多的不便，甚至有的時候會造成系統運作順暢的風險。目前，大部分的聲控指令的語音辨識系統，一開始沒有考慮語音辨識錯誤，直接設計對連續的錯誤沒有感覺，也沒有對應系統來改善連續錯誤。使用者面對聲控指令的語音辨識系統，常常因而感覺無奈，無法解決屢次出現的錯誤，以及使用上繁瑣的困擾。最後，只好被動的選擇不用它了。甚至有些時候，某些聲控指令的辨識錯誤，會造成系統運作相當的風險，對此，習用之聲控指令的語音辨識系統也只是單純的加上針對所有或是部份的辨識指令，進行多一步的確認動作。這樣的設計，增加了使用語音辨識系統上的麻煩。因此，不如更積極的透過智慧型的學習機制，提升部分或是整體指令辨識的鑑別率。爰是之故，申請人有鑑於習知技術之缺失，發明出本案「具有智慧型鑑別調適功能之語音辨識方 5 1342010 法」，用以改善上述習用手段之缺失。【發明内容】本案之主要目的係為提供一種具有智慧型鑑別調適功能之語音辨識方法，其深入的考慮到使用者的感覺，在沒有增加使用者的麻煩下，提升系統的辨識率。此外，加上運用語者辨識的技術，可以擴大上述的學習機制，成為多人使用的操作介面。根據上述構想，本案係提供一種語音辨識方法，其步驟包含（a)接收一使用者之語音；(b)辨識該語音以產生一辨識結果，該辨識結果具有一分數;(c)對於分數高的辨識結果，不作聲學模型的鑑別調適，但利用該語音之使用率來學習新的語言文法機率模型； (d)對於分數低而後被該使用者確認的辨識結果，進行聲學模型的鑑別調適，調高該語音之出現可能，並利用該語音之使用率來學習新的語言文法機率模型; 以及（e)對於分數低而後被該使用者拒絕的辨識結果，進行聲學模型的鑑別調適，調低該語音之出現可塵。如所述之方法，該語音係為一口語指令。根據上述構想，本案另提供一種語音辨識方法，用以辨識多個使用者之語音，其步驟包含（a)接收一特定使用者之語音；(b)辨識該語音以產生一辨識結果，該辨識結果具有一分數;(c)對於分數高的辨識結 6 況下定使用者之系統令；⑷在一般情者立U &的辨識結果，繼續進行該特定使用直到累積出—定信任度，才切換至該特疋使用者之系統中，·以及（數低的㈣W、_ ()在特殊情況下’對於分換行詢問該特定使用者，並立刻切換至该特定使用者之系統中。如所述之方法，每—传用去目Α Α ή ΛΑ . 吏用者具有各自的系統，紀錚m 口 °。才曰令之使用成功和錯誤之相關紀亦各自訓練調適出各自的聲學和語言之機率模如所述之方法如所述之方法，生連續錯誤時。，該語音係為一口語指令。該特殊情況係為當該口語指令發你爾Γ述之方法’該特殊情況㈣當進行對該特定使用者之私密資料處理時。 t據上想，本案又提供—種語音處理方法，吝匕含⑷接收-使用者之語音；(b)辨識該語音以 —辨識結果;⑷當該賴結果連續出現錯誤時，辨識結果以取得其錯誤型態;以及_該錯 =、t匕、而進行一調適處理。如所述之方法，該語音係為一口語指令。 ^如所述之方法，該錯誤型態包含一第一類型 /使用者連續重覆輸人相同的口辨 Π的錯誤；一第二類型，係該使用者連續重覆語指令，卻被連續辨識出各自不同的錯、，第—類型，係連續輸入非口語之背景雜立,、分別被辨識為有意義之語音指令.以及 Ί ’部係為其它零散的輸人錯料續發生。第四類型’ 述之方法’㈣適處理包含抑㈣覆發生的錯誤k項，暫時性的調整語言文法機率模型。所述之方法’該調適處理包含另行建立抑制扑 =暫時性資料庫，降低連續被拒絕的選項再出“ ，上述構想，本案再提供—種語音辨識/處理包含-語音辨識單S，用以接收並辨識—使 °曰以產生一辨識結果；一錯誤偵測單元連結於該語音辨識單元，用以於該辨識結果連續出現 2誤時，偵測該辨識結果以取得其錯誤型態；以及 -錯誤抑解元，連結於該錯誤_單元，^ 該錯誤型態而進行一調適處理。如所述之系統，該語音係為一口語指令。如所述之系統，該錯誤型態包含一第一類型，該使用者連續重覆輸人姻的口料令，卻被連續辨識出相同的錯誤;m係該使用者連續重覆輸入相同的口語指令，卻被連續職出各自不同的^ 誤；一第三類型，係連續輸入非口語之背景雜音，备曰分別被辨識為有意義之語音指令；以及一第四^型部係為其它零散的輸入錯誤連續發生。如所述之系統，該調適處理包含抑制重覆發生的錯誤選項，暫時性的調整語言文法機率模型。如所述之系統，該調適處理包含另行建立抑制指令的暫時性資料庫，降低連續被拒絕的選項再出現的機率。【實施方式】本發明所設計的學習機制，是以底下的語音辨識 (Speech Recognition)系統的架構為前提。語音辨識系統的口語辨識操作步驟包含：口語輸入、語音辨識、自動結果確認、以聲音或影像回應辨識結果、手動結果確認或是其他口語輸入更正。每個口語輸入之後，辨識結果會有一個分數，分數高的口語指令可以不需手動確認就執行；其他分數低的口語指令則需手動確認來輔助執行。此時，系統可能會以聲音或影像等回應的形式，通知使用者進行手動或是口語的再確認步驟，例如，以按鍵確認或拒絕，或是以口語指令回答對或錯。如果使用者已確認，就完成了該口語指令的流程。如果是拒絕動作，則要進行重新輸入的流程，或是進行更正錯誤的流程，直到辨識結果正確為止。本發明所設計的學習機制，係包含自動的語者辨識（Speaker Recognition)技術於系統中。語者辨識系統的使用，包含針對新使用者的學習階段，以及認識使用者之後的正常使用階段。 1342010 的鑑別調適；但是利用其口語指令的使用率，學習新的語言文法機率模型。針對分數低而後被確認的口語指令，本發明將進行聲學模型的鑑別調適，調高其出現可能；且利用其口語指令的使用率，學習新的語言文法機率模型。針對分數低而後被拒絕的口語指令，本發明將進行聲學模型的鑑別調適，調低其出現可能；卻不拿來用在學習新的語言文法機率模型上。基本整體的鑑別調適處理，幫助學習使用者的特殊錯誤情形，並建立該使用者特有的聲學和語言模型。〔多語者模型切換模式下之基本整體的鑑別調適處理〕藉由語者辨識技術，上述的基本整體的鑑別調適處理，可以自動的學習出多語者的系統環境，並且使用在多語者操控的口語指令語音辨識系統上。語者辨識和使用者的切換機制，在語者辨識技術的應用下自動的進行。各登錄有名的使用者，有各自的系統環境：紀錄著各自的口語指令的使用成功和錯誤的相關紀錄；也各自訓練調適出各自的聲學和語言的機率模型。請參閱第一圖，其係本案之使用者的切換處理流程圖。切換使用者的機制，可以如下進行。 (1)語者辨識技術，在語音辨識功能進行之後接 11 1342010 著進行（S21)。當辨識為同一語者時（S22)，則系統不動作。 (2) 當辨識出不同語者之後，針對分數高的語者辨識結果，進行自動切換的動作，並顯示在被操控的機器上的角落。 (3) —般情況下，針對分數低的語者辨識結果，留著隨後進行的口語指令再一次進行語者辨識的確認，直到累積出一定信任，才進行使用者切換的動作 (S23)。 (4) 特殊情況下，針對分數低的語者辨識結果，逕行詢問使用者，並立刻進行切換的動作（S24)。例如，當口語指令發生連續錯誤時，可以進行切換語者，立即改善辨識品質。或是例如，當進行對使用者之私密資料處理時，可以逕行詢問使用者，以正確的進行使用者之私密資料處理。〔針對連續錯誤的情形進行暫時性的鑑別調適處理〕本發明的設計將針對連續錯誤的發生，設計抑制錯誤再發生的法則，進行暫時性的鑑別調適處理，以有效抑制錯誤的連續發生，維持口語操作介面的方便自然度。連續錯誤的定義，是指被操控的機器在相同的狀態下，口語指令的語音辨識結果連續出現錯誤而沒能進行指令的動作。所謂的「機器在相同的狀態」包含T V的電台沒有更動，音量的大小沒有變化，以 12 ^42010 j的強暗等等口語指令操控的範圍，沒有付合「機器在相同的狀態」下，可以進 :語指令的連續錯誤發生，是輪入了相同的口二 7 ’因而可猎此_抑制相同的錯誤再發生。，參閱第二圖’其係本#之語音辨識/處理系統塊圖。该糸統包含_語音辨識單元21、 =單元I及-錯誤抑制單元23。本案之㈣：適=係經由該錯誤偵測單元22來偵測出 :U ’再經由該錯誤抑制單元23來處理不同型 ^的錯騎制動作。而該錯誤仙單元22所摘測的連續錯誤分為以下A〜；d類型： A型划者連續重複輸人相_語音指令，遭到連續辨識出相同的錯誤。、B型:使用者連續重複輪人相同的語音指令遭到連續辨識出各自不同的錯誤。

、C型：係連續輸入了非口語的背景雜音，卻分別被辨識為有意義的語音指令。 D型：其它零散的輸入錯誤連續發生。睛參閱第三圖，其係本案之連續辨識錯誤的鑑別處理流程圖。如第三圖所示，當連續錯誤發生Ν次時（S31) ’系統會偵測語音能量是否大於等於一預設值E(S32) ’如否，則判定該語音屬於c型。當語音能量大於㈣設值E _ ’系統會偵測該語音之錯誤相似度（全段）是否大於等於—預設值ρι%，如是，則 13 1342010 判定該語音屬於A型。當該語音之全段錯誤相似度小於該預設值P】％時，系、统會偵測該語音之中段（去除指定比例句頭及指定比例句尾的語㈣段）錯誤相似度是否大於等於-職值p2%，如是，則判定該語音屬於B型。剩下其他情形，則判定該語音屬於D 型。 &本案之錯誤抑制單元23係根據_的錯誤型恶’分別給予調適處理。處理主要是抑制錯誤選項’暫時性的調整語言文法機率模型；是：行建立抑制指令的暫時性f料庫，降低連續被拒絕的出現的機率。在機器狀態改變之後，就視為新的條件狀態，應將暫時性的調整解除，回到原來正^ 的使用狀態’並重新計算錯誤發生的連續次數。* 暫時性的語言文法機率調整，可以是某_比機率降低，甚至降低至零。可以直接調整在進行中語言文法機率模型’但是要另外儲存常態模型以在解除暫時性的調整之後，回覆至常態模型以另外儲存-個語言文法的抑制機率模型首3 行中的語f文法機率時，採取常態模型和抑制模^ 減的結果。

△紅所述’本㈣提供—種具有智慧型鑑別功能之語音辨識方法，直深入沾去· * Z I 覺，在沒有增加使用者的的感率。此外’加上運用語者辨識的技術 1342010 的子％機制成為多人使用的操作介面。因此，本荦能有效改善f知技術之缺失，是故具有產#價值，進而達成發展本案之目的。本案得由熟悉本技藝之人士任施匠思、而為修飾，然皆不脫如附申請專利範圍所欲保護者。 l圓八間單說明】

ί一係本案之使用者的切換處理流程圖。 =-圖：其係本案之語音圖。糸本案之連續辨識錯誤的鑑別處理流程【主要元件符號說明】 21:語音辨識單元 22:錯誤偵測單元 23:錯誤抑制單元

Claims

1342010 補充修正日期：民國丨〇〇年3月3曰。十、申請專利範圍： 1. 一種語音辨識方法，其步驟包含： (a) 接收一使用者之語音； (b) 辨識該語音以產生一辨識結果，該辨識結果具有一分數； (c) 對於分數高的辨識結果，不作聲學模型的鑑別調適，但利用該語音之使用率來學習新的語言文法機率模型； (d) 對於分數低而後被該使用者確認的辨識結果，進行聲學模型的鑑別調適，調高該語音之出現可能，並利用該語音之使用率來學習新的語言文法機率模型；以及 (e) 對於分數低而後被該使用者拒絕的辨識結果，進行聲學模型的鑑別調適，調低該語音之出現可能。 2. 如申請專利範圍第1項所述之方法，其中該語音係為一口語指令。 3. —種語音處理方法，其步驟包含： (a) 接收一使用者之語音； (b) 辨識該語音以產生一辨識結果； (c) 當該辨識結果連續出現錯誤時，偵測該辨識結果以取得其錯誤型態；以及 (d) 根據該錯誤型態而進行一調適處理。 4. 如申請專利範圍第3項所述之方法，其中該語音係 16 補充修正日期:民國100年3月 3曰補充修正日期:民國100年3月 3曰為口語指令型i:包V.專利範圍第4項所述之方法，其中該錯誤第類型’係該使用者連續重覆輸人相同的口，卻被連續辨識出相同的錯誤；纽社人第一類型’係該使用者連續重覆輸入相同的口 ’卻被連續辨識出各自不同的錯誤；分職連續輸人非σ語之f景雜音，卻刀财辨識為有意義之語音指令;以及 S四類型’係為其它零散的輸人錯誤連續發生。利範圍第4項所述之方法，其中該調適 :匕3 Ρ制重覆發生的錯誤選項，暫時性的調整語言文法機率模型。 7.如申請專利範圍第4項所述之方法，其中處理包含另行建立抑制指令的暫時低續被拒絕的選項再出現的機率。計犀降低連 8·—種語音辨識/處理系統，其包含： -語音辨識單元，用以接收並辨識一使用者之語曰，以產生一辨識結果； -錯誤债測單元’連結於該語音辨識單元，用以於該辨識結果連續_#料，_ 得其錯誤型態；以及飞。禾以取一錯誤抑制單元，連結於該錯誤偵測單元，用以 1342010 補充修正曰期：民國100年3月3日。根據該錯誤型態而進行一調適處理。 9.如申請專利範圍第8項所述之系統，其中該語音係為一口語指令。 10·如申請專利範圍第9項所述之系統，其中該錯誤型態包含：一第一類型’係該使用者連續重覆輸入相同的口語指令’卻被連續辨識出相同的錯誤；一第二類型’係該使用者連續重覆輸入相同的口語指令’卻被連續辨識出各自不同的錯誤；一第三類型，係連續輸入非口語之背景雜音，卻分別被辨識為有意義之語音指令；以及一第四類型’係為其它零散的輸入錯誤連續發生。 11‘如申請專利範圍第8項所述之系統，其中該調適處理包含抑制重覆發生的錯誤選項，暫時性的調整語言文法機率模型。 12.如申請專利範圍第8項所述之系統，其中該調適處理包含另行建立抑制指令的暫時性資料庫，降低連續被拒絕的選項再出現的機率。 18