TW201214413A

TW201214413A - Modification of speech quality in conversations over voice channels

Info

Publication number: TW201214413A
Application number: TW100125200A
Authority: TW
Inventors: Sara H Basson; Dimitri Kanevsky; David Nahamoo; Tara N Sainath
Original assignee: Ibm
Priority date: 2010-07-16
Filing date: 2011-07-15
Publication date: 2012-04-01
Also published as: CN103003876A; JP2013534650A; WO2012009045A1; US20120016674A1

Description

201214413 六、發明說明：【發明所屬之技術領域】本發明大體上係、關於語音信號處理，且更狀言之，係關於修改經由聲音通道之對話中的語音品質。【先前技術】在差旅費用昂貴且成本削減幅度增加的—般趨勢下，更多商務係經由電話及其他遠端方法進行交易，而不是經由面對面會議進行交县。^ ^ 因此’需要在此等遠端通信中給人留下好形象」（best foot f〇rward)，此係因為此做法已變成進行商務之模式，且個人需要在僅允許使用聲音通道的情況下建立印象。然而’在任一既定時日’或在該時日期間之任一特定時刻’對話者之聲音可能不處於「最佳形態」㈣f〇rm)。說話者可能想要進行令人信服的銷售推銷或吸引人的簡報’但不能自然地喚起其想要的熱情度以聽起來有權威、精力充沛等等。些使用者可能歸因於殘疾（諸如，失語症、自閉症或失聰）而不能夠達到在特定設定中所需要之韻律範圍 (prosodic range)。替代方案包括經由文字進行對應，及使用文字提示以指不情緒、精力料。但，文字並非總是用以進行商務的理想通道。另一選項涉及面對面會議，其令可充分利用其他特性 (模仿、手勢等等）以產生要點。但，如早先所提及，面對 157567.doc 201214413 面會議在運銷方面並非總是可能的。【發明内容】本發明之原則提供用於修改經由聲音通道之對話中的語音品質的技術。本發明之技術亦准許說話者選取性地管理此等修改。舉例而言，根據本發明之一態樣，一種用於修改相關聯於可經由一聲音通道而傳輸之一口語話語之一語音品質的方法包含以下步驟。在該口語話語之一預期接收者接收該口語話語之前獲取該口語話語。判定該口語話語之一現有語音品質。比較該口語話語之該現有語音品質與相關聯於至少一先前已獲取口語話語之至少一所需語音品質，以判定該現有語音品質是否實質上匹配於該所需語音品質。當該現有語音品質未實質上匹配於該所需語音品質時，修改該口語話語之至少一特性，以將該口語話語之該現有語音品質改變為該所需語音品質。向該預期接收者呈現具有該所需語音品質之該口語話語。該口語話語之一語音品質可包含該口語話語之一可感知語氣或情緒（例如，快樂、憂傷、自信、熱情等等）。該口語話語之一語音品質可包含該口語話語之一可感知意圖 (例如，疑問、命令、諷刺、反語等等）。可基於該口語話語之說話者之一偏好設定（例如，可經由一使用者介面而選取）而手動地選取該所需語音品質。可基於相關聯於該口語話語之一實質性内容背景及關於該口語話語對該預期接收者應如何發聲之一判定而自動地 157567.doc 201214413 選取該所需語音品質。在一實施例中，可藉由分析該一話語之内容且針對該口語話語應如何發聲來判定—聲音= 配以達成-目的而自動地選取該所需語音品質。可基於先前針對該口語話語之該說話者所建立的一或多個聲：模型而判定-聲音匹配。可經由背景資料收集(例#，對該說話者實質上透明）或經由明確資料收集（例如，在說話者明顯地知道及/或參與的情況下)而建立該一或多個聲音模型中至少一者。該方法亦可包含該說話者標記（例如，經由一使用者介面）一或多個口語話語。可分析該等已標記口語話語以判定後續所需語音品質。该方法亦可包含當判定該口語話語之該内容含有不良語言時編輯該口語話語之該内容。在該修改步驟中所修改的該口語話語之該至少一特性可包含相關聯於該口語話語之一韻律（prosody)。在一實施例中，可在傳輸該口語話語之前（例如，在聲音通道之說話者端處）修改該口語話語之該至少一特性。在另一實施例中’可在傳輸該口語話語之後（例如，在該聲音通道之接收者端處）修改該口語話語之該至少一特性。本發明之其他態樣包含用於實作及/或實現上述方法步驟之裝置及製品。本發明之此等及其他特徵、目的及優勢將自應結合隨附圖式而閱讀的本發明之說明性實施例之以下詳細描述而變得顯而易見。 I57567.doc -6 - 201214413

【實施方式J 本文將在電話對話之内容背景中描述而，應瞭解，本發明之；5 乃之原則I、麻P “ 則不限於用於電話對話，而是可據=錢語音Μ之任何合適聲音通^應用。為 =，可對所示實施例進行在本發明之料内的眾多修改。亦即，不預期或不應推斷對限制❶ Τ孓丰文所“述之特定實施例的如^文所制，術語「韻律」^語話語之特性，且可 ^ 1曰及聲調中之-或多者。韻律可反映說活者或話語之各種特徵，包括（但不限於）：說話者之情 ^狀態·，話語是陳述、疑問或是命令；說話者是說反語或諷刺’強調、對比及聚焦；或可能不被文法或詞囊選擇所編碼之其他語言元素。在聲學方面，口頭語言之「胃 I涉及語音聲之音節長度、響度、音調及共振峰頻率之變化。如本文所使用，片語「語音品質」通常意欲指代語音之 :感知語氣或情緒（例如，快樂語音、f傷語音、熱情語音、冷漠語音料），而非減在歸因於低位元率編碼及封包傳輸等等之傳輸錯誤、雜訊、失真及損失之意義上的語音品質。又，如本文所使用，「語音品質」可指代語音之可感知意圖，例如，命令、疑問、諷刺、反語等等，該思圖之傳遞方式不同於藉由文法及詞彙選擇而進行的意圖之傳遞方式。應理解，當本文陳述以某一其他方式獲取、比較、修 157567.doc 201214413 改、呈現或操縱口語話語時’其通常應被理解為意謂使用语音信號輸入、處理及輸出技術而以某一其他方式獲取、比較、修改、呈現或操縱代表口語話語之一或多個電信號。本發明之說明性實施例藉由使用聲音變形（更改）技術以強調語音樣本中之關鍵點且選取性地轉換說話者之聲音以展現一品質而非另一品質（僅舉例而言，將冷漠語音轉換成熱情語音）來克服上文在背景章節中所提及之缺點，以及其他缺點》此情形使得使用者能夠使用電話之聲音通道來更有效地進行商務，即使當其語氣（如以其聲音所顯現）之其聲音不處於最佳形態時亦如此。此外，本發明之說明性實施例允許使用者指示其想要使其聲音在對話期間如何發聲。在材料口語之内容背景的情況下，系統亦可自動地判定使用者應如何適當地發聲。此情形可藉由如下方式實現：分析說話者所說之内容且接著針對說話者應如何發聲來建立「聲音匹配」以更適當地產生要點。此外’本發明之說明性實施例亦可自動地分析如由說話者所標記之先前「成功」或「不成功」對話。接著，可將「成功」對話之韻律及語音品質映射至關於相似主題之未來對話。又，本發明之說明性實施例亦可建立反映情緒狀態（例如，「快樂聲音」、「嚴肅聲音」等等）之不同聲音模型。 157567.doc 201214413 使用者可指示其相聲」的先驗聲音(例音在特定對話中如何「發 (例如，熱情、失望等等）。在材料口語之内例亦·5Γ ό i、， /7、的情況下，本發明之說明性實施由如下Λ料㈣者應如何適當地發聲。此情形可藉及、’貫現.分析說話者所說之内容(使用語音辨識「且接者針對說話者應如何發聲來建立尸斗曰匹配」以更適當地產生要點。「建立目払聲音」之基準，使用者以所需模式(例愉快」、「嚴肅」等等）建立其聲音之模型。藉此，使用「者具有自訂聲音模型集合，其中要修改之唯一維度為感知情緒」（perceived em〇u〇n)。 ,建反映不同情緒狀態之聲音模型時之另一選項可被進行為「背景」資料收集，而非「明確」f料收集。❹ 者可依據其正常活動而說話，且「標記」其在既定區段期間感覺「快樂」或是「憂傷」。在使用者感知其為「快臬」、憂傷」等等時所產生之語音區段可用以填入「情緒語音J資料庫。另一方法必需自動地識別「快樂聲音」、「嚴肅聲音」等等。系統遍及延長時段而自動地監控及記錄使用者。使用與不同語氣相互關聯之聲學特徵而自動地偵測「快樂語音」、「嚴肅語音」等等之區段。在使用片語疊接技術的情況下，可建立反映使用者所說内容之「愉快聲音」版本或更「嚴肅」版本的話語字_。可使用語音辨識而自動地辨識使用者所說之話語，且接 157567.doc -9- 201214413 著重新合成話語以突出使用者選擇突出之語氣/韻律。在使用者不能建立「快樂語音樣本」或「嚴肅語音樣本」之資料庫及指令表的狀況下，系統可使用規則產生方法來重新合成使用者之語音以反映「快樂」或「憂傷」。舉例而言，可強加增加的基本頻率移位以建立更「生動語音。」除了修改韻律以外，此技術亦可編輯使用者所說之内容。舉例而言，若使用者已使用不適#語言，則可重新合成句子，使得消除不當片語，或用更可接受之同義字進二替換。丁 -旦已建立以數個模式代表使用者之聲音的模型，使用者隨即可自-選項範圍進行選取，_定其在特定對話中選擇突出哪種聲音’或其在該對話之特定部分時選擇突出哪種聲音。此情形可使用在使用者介面上之「按紐」（諸如’「快樂聲音」、「嚴肅聲音」》等）而被具現化。可在選取之前針對使用者播放在每—可用語氣巾之語音字串之樣本。，本發明之說明性實施例可經部署以輔助說話者之受損立律種類。此等群體可包括：聲音天生單調之個體、患有: 種類型之失語症之個體、失聰個冑，或患有自閉症之伯體在些狀況下，其可能不能夠修改其韻律，即使其知道其正設法達成何種目標亦如此。在其他狀況下，該等低體可能未意識到「快樂語音」與關聯聲音品質之間的相互關聯（例如’自閉症說話者）。選取標記「快樂語音」且藉 157567.doc 201214413 此自動地引入不同韻律變化之「按鈕」的能力可人 σ十需要。應注意，對於後一群組，該等個體自身可能不能夠針對「當我快樂/憂傷/等等時，我的聲音便是如此」來「訓練」系統。在此等狀況下，引入改變其語音韻律之規則# 管修改，且藉此重新合成其語音。圖1展示根據本發明之一實施例的用於針對特定說話者建立聲音模型之系統。如圖所示，說話者108經由電話而通信。應瞭解，電話系統可能為無線或有線系統。本發明之原則不意欲限於用以接收/傳輸語音信號之聲音通道或通信系統類型。說話者之語音係經由語音資料收集器1〇1而收集且經由自動語音辨識器102而傳遞，在自動語音__2中語音被轉譯成文字。語音資料收集請i可為用於藉由系統: 理之語音的儲存存放庫。自動語音辨識器102可利用任= 習知自動語音辨識（ASR)技術以將語音轉譯成文字。語音分析器1〇3將語音分析學應用於藉由自動語音辨識 ^们輸出之文字。語音分析學之實例可包括（但不限於）判二所时論之主題、說話者之身分識別、說話者之性別、說活者之情緒、言吾音相對於背景非語音雜訊之量及位置等。動語氣横測器論判定是否正將說話者之聲音專輸為快樂」、「憂傷」、「無聊」等等。亦即，自動偵測器⑽判定由使用者⑽所發出之語音@「語音°品 157567.doc 201214413 質」。可藉由檢查語音信號中之多種特徵(包括(但不限於) 精力、音調及韻律）來伯測語氣。美國專利第7,373,3〇ι 號、美國專利第7,451，079號及美國專利公開案第 2_/_0110號（其揭示内容之全文以引用之方式併入本文中）中描述可應用於偵測器1()4中之情緒/語㈣測技術之實例〇經由韻律特徵擷取器105而擷取相關聯於說話者之語氣的韻律特徵。若在說話者之指令表中不存在合適「語氣片語」’則經由片語疊接建立器106而建立反映所需目標語氣之新片語。若在說話者之指令表中存在反映所需語氣之合適片语，則使用韻律特徵增強器1〇7而將彼等「語氣增強」疊加於現有片語上。美國專利第6,9617〇4號、美國專利第6’873,953號及美國專利第7，_，216號（該等案揭示内谷之全文以引用之方式併入本文中）中描述可應用於模組 105、106及1〇7中之韻律特徵擷取、片語疊接及特徵增強之技術之實例。圖2展示根據本發明之一實施例的用於以適當口語語言取代不適當口語之系統。如圖所示，說話者2〇6經由電話而通彳5。再次’本發明之原則不限於任何特定類型之電話系統。說話者之語音係經由語音資料收集器2〇1 (相同或相似於圓1中之101)而收集且經由自動語音辨識器2〇2(相同或相似於圖1中之102)而傳遞，在自動語音辨識器202中語音被轉澤成文字。語音分析器2〇3(相同或相似於圊！中之丨〇3) 將語音分析學應用於文字輸出。 I57567.doc -12- 201214413 接著’藉由文字分析器204分析文字以判定是否已使用不適當語言（例如，褻瀆、侮辱等等）。在識別不適當語言之情況下’經由自動化文字取代模組2〇5而引入適當文字以替換不適當語言。接著，經由習知文字至語音技術而在模組205中將已修改文字重新合成於說話者之聲音中。美國專利第7，139,〇31號、美國專利第6,807,563號、美國專利第6,972,802號及美國專利第5,521，816號（其揭示内容之全文以引用之方式併入本文中）中描述可應用於模組204及 205中的關於不適當語言之文字分析及取代之技術之實例。圖3展不根據本發明之一實施例的用於選取所需韻律特性之使用者介面。在電話上之說話者3〇3正進行對話，且知道其想要在此特定呼叫時聽起來「快樂」或「嚴肅」。說話者啟動其電話器件（使用者介面）3〇1上之一或多個按鈕 (按鍵）’該一或多個按鈕（按鍵）將會自動地將其聲音變形為其所需目標韻律。片語疊接選取器3〇2擷取適當韻律片語疊接’且代替使用者想要修改之當前片語。圖3之方法以兩個步驟而操作。第一，片語分段器偵測對區段之適當片語。美國專利公開案第2〇〇9/〇259471號、美國專利第5,797,123號及美國專利第5,806,021號（其揭示内容之全文以引用之方式併入本文中）中描述用於此處之片語分段器之實例。第二，一旦片語被分段，隨即基於使用者所需之建議情緒而改變每一區段内之情緒。美國專利第5,559,927號、美國專利第5,86〇,〇64號及美國專利第 157567.doc -13- 201214413 7,379’871號(其揭示内容之全文以引用之方式併入本文中) 中描述用於此處之情緒更改之實例。本發明之說明性實施例亦准許使用者標記（註釋）由使用者自身感知為快樂、憂傷等等的所產生之語音區段。此情形在圓3中予以說明’纟中使用者3〇3可再次使用其電話 (使用者介面）3 01上之一或多個按鈕（按鍵）以表示開始時間及停止時間’使用者在開始時間與停止時間之間的口語話語將被選取以供分析。此情形允許許多益處。舉例而言，第，自使用者收集回饋會允許建立情緒資料庫304 ^舉例而σ第一，可執行錯誤分析304以判定系統建立不同 ;使用者H又之情緒的情緒的地方’以在未來改良語音之 it緒建立美國專利第7,5()6,262號及美國專利公開案第 2005/02737GG號（其揭示内容之全文以引用之方式併入本文中）中描述可詩此處之語音註釋技術之實例。圖4展示根據本發明之-實施例的用於處理語音信號之方法I步驟400中’叠接及處理由人員在電話上所產生之語音區段。在步驟4〇1中，判定是否可分類語音區段之「情緒内容」。若可八相了刀類’則在步驟4〇2中，判定片語之情緒内容是否匹配於名μ 、在此内各背景中所需要之情緒内容，及/ 或判疋片語之情緒内宜Β τ % Π冬疋否匹配於由使用者指示為針對此呼叫之其所需韻律傳訊的情緒内容。若在步驟401中；^ a , 个犯刀類情緒内容，則系統繼續處理下一語音區段。若情緒内容符合吐蛀^ 匕特疋對話之需要（如在步驟402中所判 157567.doc -14_ 201214413 定），則系統在步驟彻中處理下一語音區段。若情緒内容 (如在步驟402中所判定）不匹配於此對話所需之要求，則系統在步驟403中檢查是否存在用韻律適當區段即時地替換此居音區段之機構。若存在替換該語音區段之機構及適當語音區段’則在步驟綱中進行替換。若不存在可替換原始語音區段之立即可用語音區段，則在步驟4〇5中將語音發送至離線系統以產生替換，以供在未來播放具有適當韻律内容之此訊息。熟習此項技術者應瞭解’本發明之態樣可體現為系統、裝m或電腦㈣產品。因本發明之態樣可採取完全硬體實施例、完全軟體實施例(包括韌體、常駐軟體、微碼等等）或組合軟體態樣與硬體態樣之實施例的形式’該等實施例在本文中通常皆可被稱為「電路」、「模組」或「系、统」。此外，本發明之態樣可採取體現於一或多個電腦可讀媒體中之電腦程式產品的形式，該一或多個電腦可讀媒體上具有體現於其上之電腦可讀程式碼。可利用一或多個電腦可讀媒體之任何組合。電腦可讀媒體可為電腦可讀信號媒體或電腦可讀儲存媒體。舉例而言，電腦可讀儲存媒體可為（但不限於）電子、磁性、光學、電磁、紅外線或半導體系統、裝置或器件，或前述各者之任何合適組合。電腦可讀儲存媒體之更特定實例（非詳盡清單)將包括以下各者：具有一或多個導線之電連接件、攜帶型電腦磁片、硬碟、隨機存取記憶體（ram)、唯讀記憶體（ROM)、可抹除可程式化唯讀記憶體（酿⑽或 I57567.doc 15 201214413 快閃記憶體）、光纖、攜帶型光碟唯讀記憶體（cd_r〇m)、光學儲存器件、磁性儲存器件，或前述各者之任何合適組合。在此文件之内容背景中，電腦可讀儲存媒體可為可含有或儲存供指令執行系統、裝置或器件使用或結合指令執行系統、裝置或器件而使用之程式的任何有形媒體。電腦可讀信號媒體可包括傳播資料信號，傳播資料信號具有體現於其中之電腦可讀程式碼（例如，在基頻中或作為载波之部分）。此類傳播信號可採取多種形式中任— 者，包括（但不限於）電磁、光學’或其任何合適組合。電腦可讀信號媒體可為並非電腦可讀儲存媒體且可傳達、傳播或傳送供指令執行系統、裝置或器件使用或結合指令執行系統、裝置或器件而使用之程式的任何電腦可讀媒體。可使用任何適當媒體來傳輸體現於電腦可讀媒體上之程式碑’適當媒體包括（但不限於）無線、有線、光纖境線、 RF等等，或前述各者之任何合適組合。可以或多種程式設計語言之任何組合來撰寫用於執行本發明之態樣之操作的電腦程式碼，該一或多種程式設計語言包括諸如Java、SmaUta丨k、c++或其類似者之心導向式程式設計語言及諸如「C」程式設計語言或相似程式設計語言之習知程序性程式設計語言。程式碼可完全地在使用者電腦上執行、部分地在使用者電腦上執行、作為獨立ί裝軟體而執行、部分地在錢者電腦上執行^部分地 ^遂4電腦上執行’或完全地在遠端電腦或飼服器上執灯。在後一情形中’遠端電腦可經由任何類型之網路（包 157567.doc 201214413 括區域網路（LAN)或廣域網路（WAN))而連接至使用者電腦’或可對外部電腦進行連接（例如，經由使用網際網路服務提供者之網際網路）》本文參考根據本發明之實施例之方法、裝置（系統）及電腦私式產品的流程圖說明及/或方塊圖來描述本發明之態樣。應理解，可藉由電腦程式指令來實作該等流程圖說明及/或方塊圖之每一區塊以及該等流程圖說明及/或方塊圖中之區塊組合。可將此等電腦程式指令提供至通用電腦、專用電腦或其他可程式化資料處理裝置之處理器以產生一機器，使得經由該電腦或其他可程式化資料處理裝置之處理器而執行之指令建立用於實作在該或該等流程圖及/或方塊圖方塊中所指定之功能/動作的構件。亦可將此等電腦程式指令儲存於—電腦可讀媒體中，該電腦可讀媒體可指導-電腦、其他可程式化資料處理裝置或其他器件以特定方式起作用，使得儲存於該電腦可讀媒體中之& ^產纟冑w ’該製品包括實作在該或該等流程圖及/或方塊圖方塊中所指定之功能/動作的指令。亦可將該等電腦程式指令载人至_電腦、其他可程式化資料處理裝置或其他器件上，以使在該電腦、其他可程式化裝置或其他器件上執行-系列操作步_產生_電„ 作程序，使得在料腦或其他可程式化裝置上執行之指令提供用於實作在該或該等流程圖及/或方塊圖方塊中所指定之功能/動作的程序。再次參看圖1至圖4 該等圖中之圖解說明根據本發明之 157567.doc 17 201214413 各種實施例之系統、方法及電腦程式產品之可能實作方案的架構、功忐性及操作。在此方面，流程圖或方塊圖中每一區塊可代表程式碼之一模組、區段或部分，其包含用於實作指定邏輯功能之一或多個可執行指令。亦應注意，在一些替代貫作方案中，區塊中所提到之功能可不以諸圖中所提到之次序發生。舉例而言，取決於所涉及之功能性，連續地展示之兩個區塊實際上可實質上同時地執行，或該等區塊有時可以相反次序執行。亦應注意，㈣由執行指定功能或動作的基於專用硬體之系統或專用硬體與電腦指令之組合來實作方塊圖及/或流程圖說明之每一區塊以及方塊圖及/或流程圖說明中之區塊組合。因此舉例而α，如圖1至4所描繪的本發明之技術亦可包括（如本文所描述）提供—系統，其中該系統包括相異模組（例如，包含軟體、硬體或軟體及硬體之模組卜僅舉例而言，該等模組可包括(但不限於)語音資料收集器模組、自動語音辨識器模組、語音分析學模組、自動語氣偵測模組、文字分析模組、自動化語音取代模組、韻律特徵操取器模組、片語疊接建立器模組、韻律特徵增強器模組、使用者介面模組’及片語疊接選取器模組。舉例而言，此等及其他模組可經組態以執行在圖1至4之内容背景中所描述及說明的步驟。 -或多個實施例可使用在通用電腦或工作站上執行之軟體。參看圖5’此實作方案5〇〇採用(例如)處理器502、記憶體5〇4，以及（例如）藉由顯*器506及鍵盤508形成之輸入/ 157567.doc 201214413 輸出介^如本文所使用，術語「處理器」意欲包括任何處理器件，諸如，包括CPU(中央處理單元）及/或其他形式之處理電路的處理器件。另外，術語「處理器」可個以上個別處理器。術語「記憶體」意欲包括相關聯於處理器或CPU之記憶體’諸如，RAM(隨機存取記憶體）、 R0M(唯讀記憶體）、固定記憶體器件（例如，硬碟機）、抽取式記憶體器件(例如，磁片）、快閃記憶體及其類似者。另外，如本文所使用，片語「輸入/輸出介面」意欲包括㈠）用於將資料輸人至處理單元之—或多個機構（例如，建盤或π鼠），及用於提供相關聯於處理單元之結果之一或多個機構（例如，顯示器或印表機）。處理器502、記憶體504以及諸如顯示器5〇6及鍵盤蝴之，入/輸出介面可（例如）經由匯流排510而互連為資料處理單元512之部分。合適互連（例如，經由匯流排51〇)亦可提供至網路介面5i4(諸如，網路卡，其可提供至與電腦網路之介面）及媒體介面516(諸如，磁片或cd_r〇m驅動機，其可提供至與媒體518之介面）。適於儲存及/或執行程式碼之資料處理系統可包括經由系統匯流排5H)而直接或間接麵接至記憶體元件5G4之至少一處理器502。該等記憶體元件可包括在程式碼之實際執行期間所採用的本機記憶體、大容量儲存器，及快取記憶體，該等快取記憶體提供至少某一程式碼之暫時儲存，以便減少在執行中必須自大容量儲存賴取程式碼的次數。輸入/輸出或卯器件（包括（但不限於）鍵盤5〇8、顯示写 157567.doc 19 201214413 5 0 6、指標器件及其類似者）可直接（諸如，經由匯流排$ 1 〇) 耦接至系統’或經由介入之I/O控制器（為了清晰起見而省略）而耦接至系統。網路配接器（諸如，網路介面5 14)亦可耦接至系統，以使得資料處理系統能夠經由介入之私用或公用網路而編接至其他資料處理系統或遠端印表機或儲存器件。數據機、纜線數據機及乙太網路卡僅僅為當前可用類型之網路配接器中的少數幾種。如本文所使用，「伺服器」包括執行伺服器程式之實體資料處理系統（例如，如圖5所示之系統512)。應理解，此實體伺服器可能包括或可能不包括顯示器及鍵盤。應瞭解且應理解，可以許多不同方式來實作上文所描述的本發明之例示性實施例。在本文所提供的本發明之教示的It况下，一般熟習此項技術者將能夠預期本發明之其他實作方案實際上’儘f本文已參看隨附圖式而描述本發明之說明性實施例，但應理解，本發明不限於彼等精確實施例’且熟習此項技術者可在不脫離本發明之料或精神的情況下進行各種其他改變及修改。【圖式簡單說明】圖1為根據本發明之-實施例㈣於針對特定說話者建立聲音模型之系統的圖解。，圖2為根據本發明之一實施例的用於以適當口語語言取代不適當口語語言之系統的圖解。圖3為根據本發明之—實施例的用於選取所需韻律特性 157567.doc 201214413 之使用者介面的圖解。為根據本發明之一實施例的用於處理語音信號之法的圖解。個為根據本發明之一或多個實施例的用於實作步驟及/或la件之計算系統的圖解。【主要元件符號說明】多 101 102 103 語音資料收集器自動語音辨識器語音分析器 104 105 106 107 108 201 202 203 自動語氣偵測器韻律特徵擷取器片語疊接建立器韻律特徵增強器說s舌者/使用者語音資料收集器自動語音辨識器語音分析器 204 205 206 文字分析器自動化文字取代模組說話者 301 302 303 304 電話器件（使用者介面）片語疊接選取器說活者/使用者情緒資料庫/錯誤分析 157567.doc -21- 201214413 500 實作方案 502 處理器 504 記憶體/記憶體元件 506 顯示器 508 鍵盤 510 匯流排 512 資料處理單元 514 網路介面 516 媒體介面 518 媒體 157567.doc -22-

Claims

201214413 七、申請專利範圍： ι_ 一種用於修改相關聯於可經由一聲音通道而傳輸之一口語話語之一語音品質的方法，其包含以下步驟：在該口語話語之一預期接收者接收該口語話語之前獲 • 取該口語話語； ^ 判定該口語話語之一現有語音品質；比較該口語話語之該現有語音品質與相關聯於至少一先前已獲取口語話語之至少一所需語音品質，以判定該現有語音品質是否實質上匹配於該所需語音品質；當該現有語音品質未實質上匹配於該所需語音品質時，修改該口語話語之至少一特性，以將該口語話語之該現有語音品質改變為該所需語音品質；及向該預期接收者呈現具有該所需語音品質之該口語話語。 2. 如請求項1之方法，其中該口語話語之一語音品質包含該口語話語之一可感知語氣或一情緒。 3. 如請求項1之方法，其中該口語話語之一語音品質包含該口語話語之一可感知意圖。 . 4.如請求項1之方法，其中基於該口語話語之說話者之一 ^ 偏好設定而手動地選取該所需語音品質。 5. 如請求項1之方法，其中基於相關聯於該口語話語之一實質性内容背景及關於該口語話語對該預期接收者應如何發聲之一判定而自動地選取該所需語音品質。 6. 如請求項5之方法，其中藉由分析該口語話語之内容且 157567.doc 201214413 —聲音匹配以達成一 ’或其中基於先前針 —或多個聲音模型而針對°亥口 s吾話語應如何發聲來判定目的而自動地選取該所需語音品質對該口語話語之該說話者所建立的判定一聲音匹配。 7 ·如請求項6之方法，豆中缍由 ,、Υ 由为景育料收集而建立該一或夕個聲音模型中至少一去.—甘上〒主夕者，或其中經由明確資料收集而建立該一或多個聲音模型中至少一者。 8.=求項丨之方法，纟中在該修改步驟中所修改的該口 §之°亥至〉、一特性包含相關聯於該口語話語之一韻律0 9·如#求項i之方法’其進_步包含該說話者標記一或多個口语話語之步驟。月长項9之方法，其中分析該等已標記口語話語以判定後續所需語音品質。 11. 士味求項i之方法，其進一步包含當判定該口語話語之該内容含有不良語言時編輯該口語話語之該内容之步驟。 12. 如吻求項i之方法，其中在傳輸該口語話語之前修改該口語話語之該至少一特性。 13. 如凊求項丨之方法，其中在傳輸該口語話語之後修改該口語話語之該至少一特性。 14. 一種用於修改相關聯於可經由一聲音通道而傳輸之一口 s吾話語之一語音品質的裝置，其包含：一記憶體；及 157567.doc 201214413 15. « 至少一處理器件，其操作性地耦接至該記憶體且經組態以執行如請求項1至1 3之方法。一種用於修改相關聯於可經由一聲音通道而傳輸之一口語話語之一語音品質的製品，該製品包含一電腦可讀儲存媒體，該電腦可讀儲存媒體具有有形地體現於其上之電腦可讀程式碼，該電腦可讀程式碼在執行時使一電腦：在該口語話語之一預期接收者接收該口語話語之前獲取該口語話語，判定該口語話語之一現有語音品質；比較該口語話語之該現有語音品質與相關聯於至少一先前已獲取口語話語之至少一所需語音品質，以判定該現有語音品質是否實質上匹配於該所需語音品質；當該現有語音品質未實質上匹配於該所需語音品質時，修改該口語話語之至少一特性，以將該口語話語之該現有語音品質改變為該所需語音品質；及向該預期接收者呈現具有該所需語音品質之該口語話語。 157567.doc