TW201214413A - Modification of speech quality in conversations over voice channels - Google Patents
Modification of speech quality in conversations over voice channels Download PDFInfo
- Publication number
- TW201214413A TW201214413A TW100125200A TW100125200A TW201214413A TW 201214413 A TW201214413 A TW 201214413A TW 100125200 A TW100125200 A TW 100125200A TW 100125200 A TW100125200 A TW 100125200A TW 201214413 A TW201214413 A TW 201214413A
- Authority
- TW
- Taiwan
- Prior art keywords
- spoken
- spoken utterance
- speech quality
- quality
- voice
- Prior art date
Links
- 230000004048 modification Effects 0.000 title claims description 6
- 238000012986 modification Methods 0.000 title claims description 6
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims description 21
- 230000033764 rhythmic process Effects 0.000 claims description 15
- 230000008451 emotion Effects 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 3
- 230000002996 emotional effect Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 239000000463 material Substances 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 239000003623 enhancer Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 206010003805 Autism Diseases 0.000 description 2
- 208000020706 Autistic disease Diseases 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 2
- 206010021703 Indifference Diseases 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 201000007201 aphasia Diseases 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 1
- 239000002775 capsule Substances 0.000 description 1
- 231100000895 deafness Toxicity 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Description
201214413 六、發明說明: 【發明所屬之技術領域】 本發明大體上係、關於語音信號處理,且更狀言之,係 關於修改經由聲音通道之對話中的語音品質。 【先前技術】 在差旅費用昂貴且成本削減幅度增加的—般趨勢下,更 多商務係經由電話及其他遠端方法進行交易,而不是經由 面對面會議進行交县。^ ^ 因此’需要在此等遠端通信中給人 留下好形象」(best foot f〇rward),此係因為此做法已變 成進行商務之模式,且個人需要在僅允許使用聲音通 道的情況下建立印象。 然而’在任一既定時日’或在該時日期間之任一特定時 刻’對話者之聲音可能不處於「最佳形態」㈣f〇rm)。 說話者可能想要進行令人信服的銷售推銷或吸引人的簡 報’但不能自然地喚起其想要的熱情度以聽起來有權威、 精力充沛等等。 些使用者可能歸因於殘疾(諸如,失語症、自閉症或 失聰)而不能夠達到在特定設定中所需要之韻律範圍 (prosodic range)。 替代方案包括經由文字進行對應,及使用文字提示以指 不情緒、精力料。但,文字並非總是用以進行商務的理 想通道。 另一選項涉及面對面會議,其令可充分利用其他特性 (模仿、手勢等等)以產生要點。但,如早先所提及,面對 157567.doc 201214413 面會議在運銷方面並非總是可能的。 【發明内容】 本發明之原則提供用於修改經由聲音通道之對話中的語 音品質的技術。本發明之技術亦准許說話者選取性地管理 此等修改。 舉例而言,根據本發明之一態樣,一種用於修改相關聯 於可經由一聲音通道而傳輸之一口語話語之一語音品質的 方法包含以下步驟。在該口語話語之一預期接收者接收該 口語話語之前獲取該口語話語。判定該口語話語之一現有 語音品質。比較該口語話語之該現有語音品質與相關聯於 至少一先前已獲取口語話語之至少一所需語音品質,以判 定該現有語音品質是否實質上匹配於該所需語音品質。當 該現有語音品質未實質上匹配於該所需語音品質時,修改 該口語話語之至少一特性,以將該口語話語之該現有語音 品質改變為該所需語音品質。向該預期接收者呈現具有該 所需語音品質之該口語話語。 該口語話語之一語音品質可包含該口語話語之一可感知 語氣或情緒(例如,快樂、憂傷、自信、熱情等等)。該口 語話語之一語音品質可包含該口語話語之一可感知意圖 (例如,疑問、命令、諷刺、反語等等)。 可基於該口語話語之說話者之一偏好設定(例如,可經 由一使用者介面而選取)而手動地選取該所需語音品質。 可基於相關聯於該口語話語之一實質性内容背景及關於 該口語話語對該預期接收者應如何發聲之一判定而自動地 157567.doc 201214413 選取該所需語音品質。在一實施例中,可藉由分析該一 話語之内容且針對該口語話語應如何發聲來判定—聲音= 配以達成-目的而自動地選取該所需語音品質。可基於先 前針對該口語話語之該說話者所建立的一或多個聲:模型 而判定-聲音匹配。可經由背景資料收集(例#,對該說 話者實質上透明)或經由明確資料收集(例如,在說話者明 顯地知道及/或參與的情況下)而建立該一或多個聲音模型 中至少一者。 該方法亦可包含該說話者標記(例如,經由一使用者介 面)一或多個口語話語。可分析該等已標記口語話語以判 定後續所需語音品質。 该方法亦可包含當判定該口語話語之該内容含有不良語 言時編輯該口語話語之該内容。 在該修改步驟中所修改的該口語話語之該至少一特性可 包含相關聯於該口語話語之一韻律(prosody)。在一實施例 中,可在傳輸該口語話語之前(例如,在聲音通道之說話 者端處)修改該口語話語之該至少一特性。在另一實施例 中’可在傳輸該口語話語之後(例如,在該聲音通道之接 收者端處)修改該口語話語之該至少一特性。 本發明之其他態樣包含用於實作及/或實現上述方法步 驟之裝置及製品。 本發明之此等及其他特徵、目的及優勢將自應結合隨附 圖式而閱讀的本發明之說明性實施例之以下詳細描述而變 得顯而易見。 I57567.doc -6 - 201214413
【實施方式J 本文將在電話對話之内容背景中描述 而,應瞭解,本發明之;5 乃之原則I、 麻P “ 則不限於用於電話對話,而是可 據=錢語音Μ之任何合適聲音通^應用。為 =,可對所示實施例進行在本發明之料内的眾多修改。 亦即,不預期或不應推斷對 限制❶ Τ孓丰文所“述之特定實施例的 如^文所制,術語「韻律」^語話語之特性,且可 ^ 1曰及聲調中之-或多者。韻律可反映 說活者或話語之各種特徵,包括(但不限於):說話者之情 ^狀態·,話語是陳述、疑問或是命令;說話者是說反語或 諷刺’強調、對比及聚焦;或可能不被文法或詞囊選擇 所編碼之其他語言元素。在聲學方面,口頭語言之「胃 I涉及語音聲之音節長度、響度、音調及共振峰頻率之 變化。 如本文所使用,片語「語音品質」通常意欲指代語音之 :感知語氣或情緒(例如,快樂語音、f傷語音、熱情語 音、冷漠語音料),而非減在歸因於低位元率編碼及 封包傳輸等等之傳輸錯誤、雜訊、失真及損失之意義上的 語音品質。又,如本文所使用,「語音品質」可指代語音 之可感知意圖,例如,命令、疑問、諷刺、反語等等,該 思圖之傳遞方式不同於藉由文法及詞彙選擇而進行的意圖 之傳遞方式。 應理解,當本文陳述以某一其他方式獲取、比較、修 157567.doc 201214413 改、呈現或操縱口語話語時’其通常應被理解為意謂使用 语音信號輸入、處理及輸出技術而以某一其他方式獲取、 比較、修改、呈現或操縱代表口語話語之一或多個電信 號。 本發明之說明性實施例藉由使用聲音變形(更改)技術以 強調語音樣本中之關鍵點且選取性地轉換說話者之聲音以 展現一品質而非另一品質(僅舉例而言,將冷漠語音轉換 成熱情語音)來克服上文在背景章節中所提及之缺點,以 及其他缺點》 此情形使得使用者能夠使用電話之聲音通道來更有效地 進行商務,即使當其語氣(如以其聲音所顯現)之其聲音不 處於最佳形態時亦如此。 此外,本發明之說明性實施例允許使用者指示其想要使 其聲音在對話期間如何發聲。在材料口語之内容背景的情 況下,系統亦可自動地判定使用者應如何適當地發聲。此 情形可藉由如下方式實現:分析說話者所說之内容且接 著針對說話者應如何發聲來建立「聲音匹配」以更適當地 產生要點。 此外’本發明之說明性實施例亦可自動地分析如由說話 者所標記之先前「成功」或「不成功」對話。接著,可將 「成功」對話之韻律及語音品質映射至關於相似主題之未 來對話。 又,本發明之說明性實施例亦可建立反映情緒狀態(例 如,「快樂聲音」、「嚴肅聲音」等等)之不同聲音模型。 157567.doc 201214413 使用者可指示其相 聲」的先驗聲音(例音在特定對話中如何「發 (例如,熱情、失望等等)。 在材料口語之内 例亦·5Γ ό i、, /7、的情況下,本發明之說明性實施 由如下Λ料㈣者應如何適當地發聲。此情形可藉 及、’貫現.分析說話者所說之内容(使用語音辨識 「 且接者針對說話者應如何發聲來建立 尸斗曰匹配」以更適當地產生要點。 「建立目払聲音」之基準,使用者以所需模式(例 愉快」、「嚴肅」等等)建立其聲音之模型。藉此,使 用「者具有自訂聲音模型集合,其中要修改之唯一維度為 感知情緒」(perceived em〇u〇n)。 ,建反映不同情緒狀態之聲音模型時之另一選項可被 進行為「背景」資料收集,而非「明確」f料收集。❹ 者可依據其正常活動而說話,且「標記」其在既定區段期 間感覺「快樂」或是「憂傷」。在使用者感知其為「快 臬」、憂傷」等等時所產生之語音區段可用以填入「情緒 語音J資料庫。 另一方法必需自動地識別「快樂聲音」、「嚴肅聲音」等 等。系統遍及延長時段而自動地監控及記錄使用者。使用 與不同語氣相互關聯之聲學特徵而自動地偵測「快樂語 音」、「嚴肅語音」等等之區段。 在使用片語疊接技術的情況下,可建立反映使用者所說 内容之「愉快聲音」版本或更「嚴肅」版本的話語字_。 可使用語音辨識而自動地辨識使用者所說之話語,且接 157567.doc -9- 201214413 著重新合成話語以突出使用者選擇突出之語氣/韻律。 在使用者不能建立「快樂語音樣本」或「嚴肅語音樣 本」之資料庫及指令表的狀況下,系統可使用規則產生方 法來重新合成使用者之語音以反映「快樂」或「憂傷」。 舉例而言,可強加增加的基本頻率移位以建立更「生動 語音。 」 除了修改韻律以外,此技術亦可編輯使用者所說之内 容。舉例而言,若使用者已使用不適#語言,則可重新合 成句子,使得消除不當片語,或用更可接受之同義字進二 替換。 丁 -旦已建立以數個模式代表使用者之聲音的模型,使用 者隨即可自-選項範圍進行選取,_定其在特定對話中 選擇突出哪種聲音’或其在該對話之特定部分時選擇突出 哪種聲音。此情形可使用在使用者介面上之「按紐」(諸 如’「快樂聲音」、「嚴肅聲音」》等)而被具現化。可在選 取之前針對使用者播放在每—可用語氣巾之語音字串之樣 本。 , 本發明之說明性實施例可經部署以輔助說話者之受損立 律種類。此等群體可包括:聲音天生單調之個體、患有: 種類型之失語症之個體、失聰個冑,或患有自閉症之伯 體在些狀況下,其可能不能夠修改其韻律,即使其知 道其正設法達成何種目標亦如此。在其他狀況下,該等低 體可能未意識到「快樂語音」與關聯聲音品質之間的相互 關聯(例如’自閉症說話者)。選取標記「快樂語音」且藉 157567.doc 201214413 此自動地引入不同韻律變化之「按鈕」的能力可人 σ十需 要。 應注意,對於後一群組,該等個體自身可能不能夠針對 「當我快樂/憂傷/等等時,我的聲音便是如此」來「訓 練」系統。在此等狀況下,引入改變其語音韻律之規則# 管修改,且藉此重新合成其語音。 圖1展示根據本發明之一實施例的用於針對特定說話者 建立聲音模型之系統。如圖所示,說話者108經由電話而 通信。應瞭解,電話系統可能為無線或有線系統。本發明 之原則不意欲限於用以接收/傳輸語音信號之聲音通道或 通信系統類型。 說話者之語音係經由語音資料收集器1〇1而收集且經由 自動語音辨識器102而傳遞,在自動語音__2中語音 被轉譯成文字。語音資料收集請i可為用於藉由系統: 理之語音的儲存存放庫。自動語音辨識器102可利用任= 習知自動語音辨識(ASR)技術以將語音轉譯成文字。 語音分析器1〇3將語音分析學應用於藉由自動語音辨識 ^们輸出之文字。語音分析學之實例可包括(但不限於)判 二所时論之主題、說話者之身分識別、說話者之性別、說 活者之情緒、言吾音相對於背景非語音雜訊之量及位置 等。 動語氣横測器論判定是否正將說話者之聲音 專輸為快樂」、「憂傷」、「無聊」等等。亦即,自動 偵測器⑽判定由使用者⑽所發出之語音@「語音°品 157567.doc 201214413 質」。可藉由檢查語音信號中之多種特徵(包括(但不限於) 精力、音調及韻律)來伯測語氣。美國專利第7,373,3〇ι 號、美國專利第7,451,079號及美國專利公開案第 2_/_0110號(其揭示内容之全文以引用之方式併入本文 中)中描述可應用於偵測器1()4中之情緒/語㈣測技術之實 例〇 經由韻律特徵擷取器105而擷取相關聯於說話者之語氣 的韻律特徵。若在說話者之指令表中不存在合適「語氣片 語」’則經由片語疊接建立器106而建立反映所需目標語氣 之新片語。若在說話者之指令表中存在反映所需語氣之合 適片语,則使用韻律特徵增強器1〇7而將彼等「語氣增 強」疊加於現有片語上。美國專利第6,9617〇4號、美國專 利第6’873,953號及美國專利第7,_,216號(該等案揭示内 谷之全文以引用之方式併入本文中)中描述可應用於模組 105、106及1〇7中之韻律特徵擷取、片語疊接及特徵增強 之技術之實例。 圖2展示根據本發明之一實施例的用於以適當口語語言 取代不適當口語之系統。如圖所示,說話者2〇6經由電話 而通彳5。再次’本發明之原則不限於任何特定類型之電話 系統。說話者之語音係經由語音資料收集器2〇1 (相同或相 似於圓1中之101)而收集且經由自動語音辨識器2〇2(相同或 相似於圖1中之102)而傳遞,在自動語音辨識器202中語音 被轉澤成文字。語音分析器2〇3(相同或相似於圊!中之丨〇3) 將語音分析學應用於文字輸出。 I57567.doc -12- 201214413 接著’藉由文字分析器204分析文字以判定是否已使用 不適當語言(例如,褻瀆、侮辱等等)。在識別不適當語言 之情況下’經由自動化文字取代模組2〇5而引入適當文字 以替換不適當語言。接著,經由習知文字至語音技術而在 模組205中將已修改文字重新合成於說話者之聲音中。美 國專利第7,139,〇31號、美國專利第6,807,563號、美國專利 第6,972,802號及美國專利第5,521,816號(其揭示内容之全 文以引用之方式併入本文中)中描述可應用於模組204及 205中的關於不適當語言之文字分析及取代之技術之實 例。 圖3展不根據本發明之一實施例的用於選取所需韻律特 性之使用者介面。在電話上之說話者3〇3正進行對話,且 知道其想要在此特定呼叫時聽起來「快樂」或「嚴肅」。 說話者啟動其電話器件(使用者介面)3〇1上之一或多個按鈕 (按鍵)’該一或多個按鈕(按鍵)將會自動地將其聲音變形 為其所需目標韻律。片語疊接選取器3〇2擷取適當韻律片 語疊接’且代替使用者想要修改之當前片語。 圖3之方法以兩個步驟而操作。第一,片語分段器偵測 對區段之適當片語。美國專利公開案第2〇〇9/〇259471號、 美國專利第5,797,123號及美國專利第5,806,021號(其揭示 内容之全文以引用之方式併入本文中)中描述用於此處之 片語分段器之實例。第二,一旦片語被分段,隨即基於使 用者所需之建議情緒而改變每一區段内之情緒。美國專利 第5,559,927號、美國專利第5,86〇,〇64號及美國專利第 157567.doc -13- 201214413 7,379’871號(其揭示内容之全文以引用之方式併入本文中) 中描述用於此處之情緒更改之實例。 本發明之說明性實施例亦准許使用者標記(註釋)由使用 者自身感知為快樂、憂傷等等的所產生之語音區段。此情 形在圓3中予以說明’纟中使用者3〇3可再次使用其電話 (使用者介面)3 01上之一或多個按鈕(按鍵)以表示開始時間 及停止時間’使用者在開始時間與停止時間之間的口語話 語將被選取以供分析。此情形允許許多益處。舉例而言, 第,自使用者收集回饋會允許建立情緒資料庫304 ^舉 例而σ第一,可執行錯誤分析304以判定系統建立不同 ;使用者H又之情緒的情緒的地方’以在未來改良語音之 it緒建立美國專利第7,5()6,262號及美國專利公開案第 2005/02737GG號(其揭示内容之全文以引用之方式併入本文 中)中描述可詩此處之語音註釋技術之實例。 圖4展示根據本發明之-實施例的用於處理語音信號之 方法I步驟400中’叠接及處理由人員在電話上所產生 之語音區段。在步驟4〇1中,判定是否可分類語音區段之 「情緒内容」。若可八相 了刀類’則在步驟4〇2中,判定片語之情 緒内容是否匹配於名μ 、在此内各背景中所需要之情緒内容,及/ 或判疋片語之情緒内宜Β τ % Π冬疋否匹配於由使用者指示為針對此 呼叫之其所需韻律傳訊的情緒内容。 若在步驟401中;^ a , 个犯刀類情緒内容,則系統繼續處理下 一語音區段。 若情緒内容符合吐蛀^ 匕特疋對話之需要(如在步驟402中所判 157567.doc -14_ 201214413 定),則系統在步驟彻中處理下一語音區段。若情緒内容 (如在步驟402中所判定)不匹配於此對話所需之要求,則系 統在步驟403中檢查是否存在用韻律適當區段即時地替換 此居音區段之機構。若存在替換該語音區段之機構及適當 語音區段’則在步驟綱中進行替換。若不存在可替換原 始語音區段之立即可用語音區段,則在步驟4〇5中將語音 發送至離線系統以產生替換,以供在未來播放具有適當韻 律内容之此訊息。 熟習此項技術者應瞭解’本發明之態樣可體現為系統、 裝m或電腦㈣產品。因本發明之態樣可採取 完全硬體實施例、完全軟體實施例(包括韌體、常駐軟 體、微碼等等)或組合軟體態樣與硬體態樣之實施例的形 式’該等實施例在本文中通常皆可被稱為「電路」、「模 組」或「系、统」。此外,本發明之態樣可採取體現於一或 多個電腦可讀媒體中之電腦程式產品的形式,該一或多個 電腦可讀媒體上具有體現於其上之電腦可讀程式碼。 可利用一或多個電腦可讀媒體之任何組合。電腦可讀媒 體可為電腦可讀信號媒體或電腦可讀儲存媒體。舉例而 言,電腦可讀儲存媒體可為(但不限於)電子、磁性、光 學、電磁、紅外線或半導體系統、裝置或器件,或前述各 者之任何合適組合。電腦可讀儲存媒體之更特定實例(非 詳盡清單)將包括以下各者:具有一或多個導線之電連接 件、攜帶型電腦磁片、硬碟、隨機存取記憶體(ram)、唯 讀記憶體(ROM)、可抹除可程式化唯讀記憶體(酿⑽或 I57567.doc 15 201214413 快閃記憶體)、光纖、攜帶型光碟唯讀記憶體(cd_r〇m)、 光學儲存器件、磁性儲存器件,或前述各者之任何合適組 合。在此文件之内容背景中,電腦可讀儲存媒體可為可含 有或儲存供指令執行系統、裝置或器件使用或結合指令執 行系統、裝置或器件而使用之程式的任何有形媒體。 電腦可讀信號媒體可包括傳播資料信號,傳播資料信號 具有體現於其中之電腦可讀程式碼(例如,在基頻中或作 為载波之部分)。此類傳播信號可採取多種形式中任— 者,包括(但不限於)電磁、光學’或其任何合適組合。電 腦可讀信號媒體可為並非電腦可讀儲存媒體且可傳達、傳 播或傳送供指令執行系統、裝置或器件使用或結合指令執 行系統、裝置或器件而使用之程式的任何電腦可讀媒體。 可使用任何適當媒體來傳輸體現於電腦可讀媒體上之程 式碑’適當媒體包括(但不限於)無線、有線、光纖境線、 RF等等,或前述各者之任何合適組合。 可以或多種程式設計語言之任何組合來撰寫用於執行 本發明之態樣之操作的電腦程式碼,該一或多種程式設計 語言包括諸如Java、SmaUta丨k、c++或其類似者之心導 向式程式設計語言及諸如「C」程式設計語言或相似程式 設計語言之習知程序性程式設計語言。程式碼可完全地在 使用者電腦上執行、部分地在使用者電腦上執行、作為獨 立ί裝軟體而執行、部分地在錢者電腦上執行^部分地 ^遂4電腦上執行’或完全地在遠端電腦或飼服器上執 灯。在後一情形中’遠端電腦可經由任何類型之網路(包 157567.doc 201214413 括區域網路(LAN)或廣域網路(WAN))而連接至使用者電 腦’或可對外部電腦進行連接(例如,經由使用網際網路 服務提供者之網際網路)》 本文參考根據本發明之實施例之方法、裝置(系統)及電 腦私式產品的流程圖說明及/或方塊圖來描述本發明之態 樣。應理解,可藉由電腦程式指令來實作該等流程圖說明 及/或方塊圖之每一區塊以及該等流程圖說明及/或方塊圖 中之區塊組合。可將此等電腦程式指令提供至通用電腦、 專用電腦或其他可程式化資料處理裝置之處理器以產生一 機器,使得經由該電腦或其他可程式化資料處理裝置之處 理器而執行之指令建立用於實作在該或該等流程圖及/或 方塊圖方塊中所指定之功能/動作的構件。 亦可將此等電腦程式指令儲存於—電腦可讀媒體中,該 電腦可讀媒體可指導-電腦、其他可程式化資料處理裝置 或其他器件以特定方式起作用,使得儲存於該電腦可讀媒 體中之& ^產纟冑w ’該製品包括實作在該或該等流程 圖及/或方塊圖方塊中所指定之功能/動作的指令。 亦可將該等電腦程式指令载人至_電腦、其他可程式化 資料處理裝置或其他器件上,以使在該電腦、其他可程式 化裝置或其他器件上執行-系列操作步_產生_電„ 作程序,使得在料腦或其他可程式化裝置上執行之指令 提供用於實作在該或該等流程圖及/或方塊圖方塊中所指 定之功能/動作的程序。 再次參看圖1至圖4 該等圖中之圖解說明根據本發明之 157567.doc 17 201214413 各種實施例之系統、方法及電腦程式產品之可能實作方案 的架構、功忐性及操作。在此方面,流程圖或方塊圖中每 一區塊可代表程式碼之一模組、區段或部分,其包含用於 實作指定邏輯功能之一或多個可執行指令。亦應注意,在 一些替代貫作方案中,區塊中所提到之功能可不以諸圖中 所提到之次序發生。舉例而言,取決於所涉及之功能性, 連續地展示之兩個區塊實際上可實質上同時地執行,或該 等區塊有時可以相反次序執行。亦應注意,㈣由執行指 定功能或動作的基於專用硬體之系統或專用硬體與電腦指 令之組合來實作方塊圖及/或流程圖說明之每一區塊以及 方塊圖及/或流程圖說明中之區塊組合。 因此舉例而α,如圖1至4所描繪的本發明之技術亦可 包括(如本文所描述)提供—系統,其中該系統包括相異模 組(例如,包含軟體、硬體或軟體及硬體之模組卜僅舉例 而言,該等模組可包括(但不限於)語音資料收集器模組、 自動語音辨識器模組、語音分析學模組、自動語氣偵測模 組、文字分析模組、自動化語音取代模組、韻律特徵操取 器模組、片語疊接建立器模組、韻律特徵增強器模組、使 用者介面模組’及片語疊接選取器模組。舉例而言,此等 及其他模組可經組態以執行在圖1至4之内容背景中所描述 及說明的步驟。 -或多個實施例可使用在通用電腦或工作站上執行之軟 體。參看圖5’此實作方案5〇〇採用(例如)處理器502、記憶 體5〇4,以及(例如)藉由顯*器506及鍵盤508形成之輸入/ 157567.doc 201214413 輸出介^如本文所使用,術語「處理器」意欲包括任何 處理器件,諸如,包括CPU(中央處理單元)及/或其他形式 之處理電路的處理器件。另外,術語「處理器」可 個以上個別處理器。術語「記憶體」意欲包括相關聯於處 理器或CPU之記憶體’諸如,RAM(隨機存取記憶體)、 R0M(唯讀記憶體)、固定記憶體器件(例如,硬碟機)、抽 取式記憶體器件(例如,磁片)、快閃記憶體及其類似者。 另外,如本文所使用,片語「輸入/輸出介面」意欲包括 ㈠)用於將資料輸人至處理單元之—或多個機構(例如, 建盤或π鼠),及用於提供相關聯於處理單元之結果之一 或多個機構(例如,顯示器或印表機)。 處理器502、記憶體504以及諸如顯示器5〇6及鍵盤蝴之 ,入/輸出介面可(例如)經由匯流排510而互連為資料處理 單元512之部分。合適互連(例如,經由匯流排51〇)亦可提 供至網路介面5i4(諸如,網路卡,其可提供至與電腦網路 之介面)及媒體介面516(諸如,磁片或cd_r〇m驅動機,其 可提供至與媒體518之介面)。 適於儲存及/或執行程式碼之資料處理系統可包括經由 系統匯流排5H)而直接或間接麵接至記憶體元件5G4之至少 一處理器502。該等記憶體元件可包括在程式碼之實際執 行期間所採用的本機記憶體、大容量儲存器,及快取記憶 體,該等快取記憶體提供至少某一程式碼之暫時儲存,以 便減少在執行中必須自大容量儲存賴取程式碼的次數。 輸入/輸出或卯器件(包括(但不限於)鍵盤5〇8、顯示写 157567.doc 19 201214413 5 0 6、指標器件及其類似者)可直接(諸如,經由匯流排$ 1 〇) 耦接至系統’或經由介入之I/O控制器(為了清晰起見而省 略)而耦接至系統。 網路配接器(諸如,網路介面5 14)亦可耦接至系統,以 使得資料處理系統能夠經由介入之私用或公用網路而編接 至其他資料處理系統或遠端印表機或儲存器件。數據機、 纜線數據機及乙太網路卡僅僅為當前可用類型之網路配接 器中的少數幾種。 如本文所使用,「伺服器」包括執行伺服器程式之實體 資料處理系統(例如,如圖5所示之系統512)。應理解,此 實體伺服器可能包括或可能不包括顯示器及鍵盤。 應瞭解且應理解,可以許多不同方式來實作上文所描述 的本發明之例示性實施例。在本文所提供的本發明之教示 的It况下,一般熟習此項技術者將能夠預期本發明之其他 實作方案實際上’儘f本文已參看隨附圖式而描述本發 明之說明性實施例,但應理解,本發明不限於彼等精確實 施例’且熟習此項技術者可在不脫離本發明之料或精神 的情況下進行各種其他改變及修改。 【圖式簡單說明】 圖1為根據本發明之-實施例㈣於針對特定說話者建 立聲音模型之系統的圖解。 ,圖2為根據本發明之一實施例的用於以適當口語語言取 代不適當口語語言之系統的圖解。 圖3為根據本發明之—實施例的用於選取所需韻律特性 157567.doc 201214413 之使用者介面的圖解。 為根據本發明之一實施例的用於處理語音信號之 法的圖解。 個 為根據本發明之一或多個實施例的用於實作 步驟及/或la件之計算系統的圖解。 【主要元件符號說明】 多 101 102 103 語音資料收集器 自動語音辨識器 語音分析器 104 105 106 107 108 201 202 203 自動語氣偵測器 韻律特徵擷取器 片語疊接建立器 韻律特徵增強器 說s舌者/使用者 語音資料收集器 自動語音辨識器 語音分析器 204 205 206 文字分析器 自動化文字取代模組 說話者 301 302 303 304 電話器件(使用者介面) 片語疊接選取器 說活者/使用者 情緒資料庫/錯誤分析 157567.doc -21- 201214413 500 實作方案 502 處理器 504 記憶體/記憶體元件 506 顯示器 508 鍵盤 510 匯流排 512 資料處理單元 514 網路介面 516 媒體介面 518 媒體 157567.doc -22-
Claims (1)
- 201214413 七、申請專利範圍: ι_ 一種用於修改相關聯於可經由一聲音通道而傳輸之一口 語話語之一語音品質的方法,其包含以下步驟: 在該口語話語之一預期接收者接收該口語話語之前獲 • 取該口語話語; ^ 判定該口語話語之一現有語音品質; 比較該口語話語之該現有語音品質與相關聯於至少一 先前已獲取口語話語之至少一所需語音品質,以判定該 現有語音品質是否實質上匹配於該所需語音品質; 當該現有語音品質未實質上匹配於該所需語音品質 時,修改該口語話語之至少一特性,以將該口語話語之 該現有語音品質改變為該所需語音品質;及 向該預期接收者呈現具有該所需語音品質之該口語話 語。 2. 如請求項1之方法,其中該口語話語之一語音品質包含 該口語話語之一可感知語氣或一情緒。 3. 如請求項1之方法,其中該口語話語之一語音品質包含 該口語話語之一可感知意圖。 . 4.如請求項1之方法,其中基於該口語話語之說話者之一 ^ 偏好設定而手動地選取該所需語音品質。 5. 如請求項1之方法,其中基於相關聯於該口語話語之一 實質性内容背景及關於該口語話語對該預期接收者應如 何發聲之一判定而自動地選取該所需語音品質。 6. 如請求項5之方法,其中藉由分析該口語話語之内容且 157567.doc 201214413 —聲音匹配以達成一 ’或其中基於先前針 —或多個聲音模型而 針對°亥口 s吾話語應如何發聲來判定 目的而自動地選取該所需語音品質 對該口語話語之該說話者所建立的 判定一聲音匹配。 7 ·如請求項6之方法,豆中缍由 ,、Υ 由为景育料收集而建立該一 或夕個聲音模型中至少一去.—甘上 〒主夕者,或其中經由明確資料收集 而建立該一或多個聲音模型中至少一者。 8.=求項丨之方法,纟中在該修改步驟中所修改的該口 §之°亥至〉、一特性包含相關聯於該口語話語之一韻 律0 9·如#求項i之方法’其進_步包含該說話者標記一或多 個口语話語之步驟。 月长項9之方法,其中分析該等已標記口語話語以判 定後續所需語音品質。 11. 士味求項i之方法,其進一步包含當判定該口語話語之 該内容含有不良語言時編輯該口語話語之該内容之步 驟。 12. 如吻求項i之方法,其中在傳輸該口語話語之前修改該 口語話語之該至少一特性。 13. 如凊求項丨之方法,其中在傳輸該口語話語之後修改該 口語話語之該至少一特性。 14. 一種用於修改相關聯於可經由一聲音通道而傳輸之一口 s吾話語之一語音品質的裝置,其包含: 一記憶體;及 157567.doc 201214413 15. « 至少一處理器件,其操作性地耦接至該記憶體且經組 態以執行如請求項1至1 3之方法。 一種用於修改相關聯於可經由一聲音通道而傳輸之一口 語話語之一語音品質的製品,該製品包含一電腦可讀儲 存媒體,該電腦可讀儲存媒體具有有形地體現於其上之 電腦可讀程式碼,該電腦可讀程式碼在執行時使一電 腦: 在該口語話語之一預期接收者接收該口語話語之前獲 取該口語話語, 判定該口語話語之一現有語音品質; 比較該口語話語之該現有語音品質與相關聯於至少一 先前已獲取口語話語之至少一所需語音品質,以判定該 現有語音品質是否實質上匹配於該所需語音品質; 當該現有語音品質未實質上匹配於該所需語音品質 時,修改該口語話語之至少一特性,以將該口語話語之 該現有語音品質改變為該所需語音品質;及 向該預期接收者呈現具有該所需語音品質之該口語話 語。 157567.doc
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US12/838,103 US20120016674A1 (en) | 2010-07-16 | 2010-07-16 | Modification of Speech Quality in Conversations Over Voice Channels |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| TW201214413A true TW201214413A (en) | 2012-04-01 |
Family
ID=45467638
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW100125200A TW201214413A (en) | 2010-07-16 | 2011-07-15 | Modification of speech quality in conversations over voice channels |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US20120016674A1 (zh) |
| JP (1) | JP2013534650A (zh) |
| CN (1) | CN103003876A (zh) |
| TW (1) | TW201214413A (zh) |
| WO (1) | WO2012009045A1 (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI473080B (zh) * | 2012-04-10 | 2015-02-11 | Nat Univ Chung Cheng | The use of phonological emotions or excitement to assist in resolving the gender or age of speech signals |
| CN104471512A (zh) * | 2012-05-07 | 2015-03-25 | 奥德伯公司 | 内容定制化 |
Families Citing this family (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8781880B2 (en) | 2012-06-05 | 2014-07-15 | Rank Miner, Inc. | System, method and apparatus for voice analytics of recorded audio |
| TWI573129B (zh) * | 2013-02-05 | 2017-03-01 | 國立交通大學 | 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法 |
| WO2015101523A1 (en) * | 2014-01-03 | 2015-07-09 | Peter Ebert | Method of improving the human voice |
| US10157626B2 (en) | 2016-01-20 | 2018-12-18 | Harman International Industries, Incorporated | Voice affect modification |
| US9799324B2 (en) * | 2016-01-28 | 2017-10-24 | Google Inc. | Adaptive text-to-speech outputs |
| US9653096B1 (en) * | 2016-04-19 | 2017-05-16 | FirstAgenda A/S | Computer-implemented method performed by an electronic data processing apparatus to implement a quality suggestion engine and data processing apparatus for the same |
| FR3052454B1 (fr) | 2016-06-10 | 2018-06-29 | Roquette Freres | Polyester thermoplastique amorphe pour la fabrication de corps creux |
| CN108630193B (zh) * | 2017-03-21 | 2020-10-02 | 北京嘀嘀无限科技发展有限公司 | 语音识别方法及装置 |
| US20190019497A1 (en) * | 2017-07-12 | 2019-01-17 | I AM PLUS Electronics Inc. | Expressive control of text-to-speech content |
| JP7151181B2 (ja) * | 2018-05-31 | 2022-10-12 | トヨタ自動車株式会社 | 音声対話システム、その処理方法及びプログラム |
| US10861483B2 (en) | 2018-11-29 | 2020-12-08 | i2x GmbH | Processing video and audio data to produce a probability distribution of mismatch-based emotional states of a person |
| US10930284B2 (en) * | 2019-04-11 | 2021-02-23 | Advanced New Technologies Co., Ltd. | Information processing system, method, device and equipment |
| DE102019111365B4 (de) | 2019-05-02 | 2024-09-26 | Johannes Raschpichler | Verfahren, Computerprogrammprodukt, System und Vorrichtung zum Modifizieren von akustischen Interaktionssignalen, die von mindestens einem Interaktionspartner erzeugt werden, hinsichtlich eines Interaktionsziels |
| US11062691B2 (en) | 2019-05-13 | 2021-07-13 | International Business Machines Corporation | Voice transformation allowance determination and representation |
| US11501752B2 (en) * | 2021-01-20 | 2022-11-15 | International Business Machines Corporation | Enhanced reproduction of speech on a computing system |
| US20230009957A1 (en) * | 2021-07-07 | 2023-01-12 | Voice.ai, Inc | Voice translation and video manipulation system |
| DE102021208344A1 (de) | 2021-08-02 | 2023-02-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung eingetragener Verein | Sprachsignalbearbeitungsvorrichtung, Sprachsignalwiedergabesystem und Verfahren zum Ausgeben eines entemotionalisierten Sprachsignals |
| CN116486814A (zh) * | 2023-04-23 | 2023-07-25 | 富韵声学科技(深圳)有限公司 | 一种改变蓝牙通话背景的方法、介质及电子设备 |
Family Cites Families (19)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3237566B2 (ja) * | 1997-04-11 | 2001-12-10 | 日本電気株式会社 | 通話方法、音声送信装置及び音声受信装置 |
| US6049765A (en) * | 1997-12-22 | 2000-04-11 | Lucent Technologies Inc. | Silence compression for recorded voice messages |
| US7085719B1 (en) * | 2000-07-13 | 2006-08-01 | Rockwell Electronics Commerce Technologies Llc | Voice filter for normalizing an agents response by altering emotional and word content |
| US20030187652A1 (en) * | 2002-03-27 | 2003-10-02 | Sony Corporation | Content recognition system for indexing occurrences of objects within an audio/video data stream to generate an index database corresponding to the content data stream |
| US6882971B2 (en) * | 2002-07-18 | 2005-04-19 | General Instrument Corporation | Method and apparatus for improving listener differentiation of talkers during a conference call |
| US6959080B2 (en) * | 2002-09-27 | 2005-10-25 | Rockwell Electronic Commerce Technologies, Llc | Method selecting actions or phases for an agent by analyzing conversation content and emotional inflection |
| US7444402B2 (en) * | 2003-03-11 | 2008-10-28 | General Motors Corporation | Offensive material control method for digital transmissions |
| WO2006112822A1 (en) * | 2005-04-14 | 2006-10-26 | Thomson Licensing | Automatic replacement of objectionable audio content from audio signals |
| US9300790B2 (en) * | 2005-06-24 | 2016-03-29 | Securus Technologies, Inc. | Multi-party conversation analyzer and logger |
| US7809572B2 (en) * | 2005-07-20 | 2010-10-05 | Panasonic Corporation | Voice quality change portion locating apparatus |
| US20080040110A1 (en) * | 2005-08-08 | 2008-02-14 | Nice Systems Ltd. | Apparatus and Methods for the Detection of Emotions in Audio Interactions |
| US7983910B2 (en) * | 2006-03-03 | 2011-07-19 | International Business Machines Corporation | Communicating across voice and text channels with emotion preservation |
| DE602007002906D1 (de) * | 2006-05-22 | 2009-12-03 | Philips Intellectual Property | System und verfahren zum trainieren eines dysarthrischen sprechers |
| US7912718B1 (en) * | 2006-08-31 | 2011-03-22 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
| US8036899B2 (en) * | 2006-10-20 | 2011-10-11 | Tal Sobol-Shikler | Speech affect editing systems |
| US8036375B2 (en) * | 2007-07-26 | 2011-10-11 | Cisco Technology, Inc. | Automated near-end distortion detection for voice communication systems |
| US8886663B2 (en) * | 2008-09-20 | 2014-11-11 | Securus Technologies, Inc. | Multi-party conversation analyzer and logger |
| US8340267B2 (en) * | 2009-02-05 | 2012-12-25 | Microsoft Corporation | Audio transforms in connection with multiparty communication |
| US20100280828A1 (en) * | 2009-04-30 | 2010-11-04 | Gene Fein | Communication Device Language Filter |
-
2010
- 2010-07-16 US US12/838,103 patent/US20120016674A1/en not_active Abandoned
-
2011
- 2011-05-13 WO PCT/US2011/036439 patent/WO2012009045A1/en not_active Ceased
- 2011-05-13 JP JP2013519681A patent/JP2013534650A/ja not_active Withdrawn
- 2011-05-13 CN CN2011800347948A patent/CN103003876A/zh active Pending
- 2011-07-15 TW TW100125200A patent/TW201214413A/zh unknown
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI473080B (zh) * | 2012-04-10 | 2015-02-11 | Nat Univ Chung Cheng | The use of phonological emotions or excitement to assist in resolving the gender or age of speech signals |
| CN104471512A (zh) * | 2012-05-07 | 2015-03-25 | 奥德伯公司 | 内容定制化 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN103003876A (zh) | 2013-03-27 |
| JP2013534650A (ja) | 2013-09-05 |
| WO2012009045A1 (en) | 2012-01-19 |
| US20120016674A1 (en) | 2012-01-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TW201214413A (en) | Modification of speech quality in conversations over voice channels | |
| Reddy et al. | Speech-to-text and text-to-speech recognition using deep learning | |
| JP7540080B2 (ja) | 声変換および音声認識モデルを使用した合成データ拡大 | |
| US11848005B2 (en) | Voice attribute conversion using speech to speech | |
| US8386265B2 (en) | Language translation with emotion metadata | |
| US20210366462A1 (en) | Emotion classification information-based text-to-speech (tts) method and apparatus | |
| US6859778B1 (en) | Method and apparatus for translating natural-language speech using multiple output phrases | |
| US20100217591A1 (en) | Vowel recognition system and method in speech to text applictions | |
| TW200901162A (en) | Indexing digitized speech with words represented in the digitized speech | |
| US9892095B2 (en) | Reconciliation of transcripts | |
| Kopparapu | Non-linguistic analysis of call center conversations | |
| US20240257811A1 (en) | System and Method for Providing Real-time Speech Recommendations During Verbal Communication | |
| US20240096236A1 (en) | System for reply generation | |
| Melguy et al. | Perceptual adaptation to a novel accent: Phonetic category expansion or category shift? | |
| US12548551B1 (en) | Text-to-speech processing | |
| US7308407B2 (en) | Method and system for generating natural sounding concatenative synthetic speech | |
| CN109616116B (zh) | 通话系统及其通话方法 | |
| CN115938342A (zh) | 语音处理方法、装置、电子设备及存储介质 | |
| Dall | Statistical parametric speech synthesis using conversational data and phenomena | |
| Burke | Speech processing for ip networks: Media resource control protocol (MRCP) | |
| US11632345B1 (en) | Message management for communal account | |
| US20250285640A1 (en) | Voice attribute conversion using speech to speech | |
| JP2010060729A (ja) | 受付装置、受付方法、及び受付プログラム | |
| Do et al. | VietSuperSpeech: A Large-Scale Vietnamese Conversational Speech Dataset for ASR Fine-Tuning in Chatbot, Customer Support, and Call Center Applications | |
| WO2022041177A1 (zh) | 通信消息处理方法、设备及即时通信客户端 |