TW476060B - Smoothening apparatus and method for quick synthesized voice - Google Patents

Smoothening apparatus and method for quick synthesized voice Download PDF

Info

Publication number
TW476060B
TW476060B TW89110181A TW89110181A TW476060B TW 476060 B TW476060 B TW 476060B TW 89110181 A TW89110181 A TW 89110181A TW 89110181 A TW89110181 A TW 89110181A TW 476060 B TW476060 B TW 476060B
Authority
TW
Taiwan
Prior art keywords
speech signal
synthesized speech
function
signal
length
Prior art date
Application number
TW89110181A
Other languages
English (en)
Inventor
Huei-Liang Jiang
Original Assignee
Iqchina Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iqchina Technology Inc filed Critical Iqchina Technology Inc
Priority to TW89110181A priority Critical patent/TW476060B/zh
Application granted granted Critical
Publication of TW476060B publication Critical patent/TW476060B/zh

Links

Landscapes

  • Document Processing Apparatus (AREA)

Description

經濟部智慧財產局員工消費合作社印製 476060 A7 B7_ 五、發明說明() 5-1發明領域 本發明係有關於一種聲音合成平滑處理之方法與 裝置,特別是有關於一種可以快速地將聲音合成平滑處 理之方法與裝置。 5-2發明背景 在自動化設備使用日益頻繁的現代,作為使用者與 自動化系統溝通之用的人機介面,為了讓使用者便於依 照指示操作機器,或是讓使用者獲得語音内的資訊,必 須會讓機器發出合成語音,所以合成語音若可以盡量接 近人類發出的自然語音,將會讓使用者覺得有親切感, 甚至更容易操作。 然而現在一般聲音合成的方式大約分為三種:一、 口腔模型參數法,二、原音參數法,三、聲音串接法。 上述的各種方法各有如下的缺點。口腔模型參數法的缺 點是效果太假,很容易就可以判定為機器合成聲音。而 原音參數法則是因為要減少須儲存的資料置,所以在儲 存時就將其高頻部分捨棄,以致於以原音參數法發音 時,合成效果不清晰(因為人聲的較高頻部分消失)。串接 法則銜接處理不易,儲存的資料量大,所以在以前儲存 裝置容量成本高時,一般並不會考慮使用此方法,然而 在機器發出單字的合成語音時,此方法卻是具有最佳發 音品質,所以聲音串接法在儲存媒體容量不斷變大、儲 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁)
·1111111 . I I — II 經濟部智慧財產局員工消費合作社印製 476060 A7 B7_ 五、發明說明() 存成本降低的情形下,仍是語音合成的重要方法,只是 必須要克服每個字音之間連接的問題,否則即使每個字 音的發音都自然,但是當兩個字音連接時,聽起來仍然 不像人類的自然語音、無法達到提昇合成語音發音品質 的目的。 在不考慮破音字的情形下,一般而言,同一個字雖 然其單字的發音(字音)是固定的,但是在人類所發出的自 然語音當中,在不同的詞句内,會因為其前後所連接的 字不同,以致其發音必須因為前後的文字而改變。這種 連音的情形在英文發音中特別明顯,在中文發音中雖然 較不明顯,但是若細究中文語音的發音結構,可以發現 中文語音中每個單字的發音包括聲母、介音以及韻母, 並且發出韻母之後的一段延續時間内所發的是氣音,音 量很小。接著在下一字音之前並不會發出聲音。 若是將每一個字音單獨儲存在語音庫,要讀出一個 句子時再由語音庫個別讀出複數個單字字音,並且這複 數個單字字音之間只是直接串接,則所發出的複數個單 字字音聽起來就不像是一個句子,每兩個字的發音中間 的間斷變得很明顯,聽起來會與一般自然語音有很大的 差別。因為在詞句中一個單字的發音與另一個詞句中同 一個單字的發音(音量或音調)並不相同。在合成語音的應 用中,如果要儲存所有詞句以避免由單字發音逐一連接 所造成的斷音問題,所需儲存的空間極大,實務上並不 可行。所以儲存單字的發音,再將單字的發音連接成為 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) ^--------II-------- 經濟部智慧財產局員工消費合作社印製 476060 A7 B7_ 五、發明說明() 一個詞句的發音較為可行,並且為了運算快速起見,處 理合成語音的方法最好越簡單越好。 過去串接法在字與字連接處韻律往往無法得處理 流暢,連續字音之間無法銜接,因此聽起來會有間斷、 變調的感覺,需要提出一種機器發出一個詞句的合成語 音時,不只將其中每個字的發音作處理,更要使合成語 音發音時,每個發音的字與字之間的連接更為平順的方 法,以提高合成語音之發音品質,並且此方法必須具有 快速運算的優點,使其適用於實際運作。 5 - 3發明目的及概述 鑒於上述之發明背景中,語音合成的運用範圍越來 越廣,傳統的裝置與方法無法快速而且簡單的將合成語 音平滑化處理。所以本發明提出一種聲音合成的平滑處 理裝置與方法,使其具有良好的合成聲音串接效果,並 且因為其運算極為簡單,所以更適合一般不要花費大量 成本的使用者。 本發明所提出的聲音合成平滑處理裝置與方法,係 在讀出合成語音訊號時,使所發出的合成語音中每個字 音間之發音平滑化,上述之聲音合成平滑處理裝置包含 下列元件:聲母長度偵測裝置,係用於偵測出依序輸出 的每個合成語音訊號的聲母發聲時間長度。延遲裝置, 係用於將每個合成語音訊號輸入上述之延遲裝置而延遲 一段特定時間之後,再行將所輸入的每個合成語音訊號 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) -裝--------訂---------繞 %- 經濟部智慧財產局員工消費合作社印製 476060 A7 B7_ 五、發明說明() 輸出上述之延遲裝置。 第一處理裝置,係用於合成語音訊號中的第一合成 語音訊號以及第二合成語音訊號被依序輸入到第一處理 裝置時,相應於第二合成語音訊號由起始點開始的重疊 時段中,其增益大小由零漸增至一特定值,並且維持在 上述之特定值,直到上述之第二合成語音訊號結束之後 才又回歸到零,上述之重疊時段的長度等於子音長度偵 測裝置對連續的第一合成語音訊號以及第二合成語音訊 號中較慢輸入的第二合成語音訊號偵測之後所得到的後 子音長度。第一處理裝置的增益大小由零漸增至上述之 特定值時,其轉換函數為第一轉換函數,其為遞增函數。 第二處理裝置,係用於依據上述之子音長度偵測裝 置所偵測得的每個合成語音訊號的子音發聲時間長度, 當合成語音訊號中的第一合成語音訊號以及第二合成語 音訊號被依序輸入到上述之第二處理裝置時,第一合成 語音訊號由衰減起始點開始,到第一合成語音訊號結束 的上述之重疊時段内,上述之第一處理裝置的增益大小 由上述之特定值漸漸減小到零。上述之重疊時段的長度 等於上述之子音長度偵測裝置偵測第二合成語音訊號所 得的後子音長度。第二處理裝置的增益大小由上述之特 定值漸減至零時,其所對應的函數為第二轉換函數。上 述之第二轉換函數為遞減函數。 加成裝置,係用於將上述之第一處理裝置以及第二 處理裝置的輸出訊號疊加,使得重疊時段内的第一合成 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) _
Λ ί n n m n an n 一 rT I n HI in —a— n teamf m I 476060 A7 B7 五、發明說明() (請先閱讀背面之注意事項再填寫本頁) 語音訊號與重疊時段内的第二合成語音訊號相加。藉以 使得上述之第一合成語音訊號,及其後段内的重疊時段 所疊加的第一合成語音訊號與第二合成語音訊號,連同 重疊時段之後的第二合成語音訊號結合之後,使所發出 的合成語音中之每個字音間之發音平滑化。 其中上述之第一轉換函數可以為遞增的步階函數 (stepfunct ion)或是遞增的斜坡函數(ramp function)。上 述之第二轉換函數可以為遞減的步階函數(stepfunction) 或是斜坡函數(ramp function)。 經濟部智慧財產局員工消費合作社印製 本發明所提出的聲音合成平滑處理方法,係在讀出 合成語音訊號時,使所發出的合成語音中每個字音間之 發音平滑化,上述之聲音合成的平滑處理方法包含下列 步驟:首先偵測出依序輸出的每個合成語音訊號的子音 發聲時間長度,同時將每個合成語音訊號延遲一段特定 時間之後再行輸出。然後以第一轉換函數乘以合成語音 訊號中的第一合成語音訊號以及第二合成語音訊號,其 中上述之第一轉換函數的轉換特性曲線相應於第二合成 語音訊號由起始點開始的重疊時段内,其增益大小由零 漸增至一特定值,並且維持在上述之特定值,直到上述 之第二合成語音訊號結束之後才又回歸到零。上述之重 疊時段的長度等於連續的第一合成語音訊號以及第二合 成語音訊號中較慢輸入的第二合成語音訊號的子音發聲 時間長度,上述之第一轉換函數為遞增函數。 接著以第二轉換函數乘以合成語音訊號中的第一 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 經濟部智慧財產局員工消費合作社印製 476060 A7 B7_ 五、發明說明() 合成語音訊號以及第二合成語音訊號,其中上述之第二 轉換函數的轉換特性曲線相應於上述之第一合成語音訊 號,於第一合成語音訊號由衰減起始點開始到第一合成 語音訊號結束的重疊時段内,上述之第一處理裝置的增 益大小由上述之特定值漸漸減小到零。上述之重疊時段 的長度等於上述的後子音長度,上述之第二轉換函數為 遞減函數。最後將經過上述第一函數處理的部分第二合 成語音訊號與經過上述第二函數處理的部分第一合成語 音訊號疊加,使得上述之重疊時段内的第一合成語音訊 號與上述之重疊時段内的第二合成語音訊號相加,藉以 使得上述之第一合成語音訊號,及其後段内上述之重疊 時段中所疊加的經過第一函數處理的部分第二合成語音 訊號與經過上述第二函數處理的部分第一合成語音訊 號,連同上述之重疊時段後的第二合成語音訊號結合之 後,使所發出的合成語音中之每個字音間之發音平滑 化。 5-4圖式簡單說明 將後續的說明配合下列圖式,即可以對於本發明的 特徵有更為清楚之了解,其中: 圖一顯示的是本發明的快速聲音合成之平滑處理 裝置與方法的一較佳實施例的功能方塊圖; 圖二顯示的是依據本發明的快速聲音合成之平滑 處理裝置與方法中之一較佳實施例所利用的第一處理裝 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) 裝--------訂---------線 經濟部智慧財產局員工消費合作社印製 476060 A7 ___B7_ 五、發明說明() 置的轉換函數圖;以及 圖三顯示的是依據本發明的快速聲音合成之平滑 處理裝置與方法中之一較佳實施例所利用的第二處理裝 置的轉換函數圖。 5-5發明詳細說明 因為在一般習知的合成語音之技術中,並未有成本 低廉又有良好效果的處理合成語音之方法與裝置,以致 現在市面上的語音合成產品,通通無法以較低廉的價格 來製造出高品質的語音合成裝置。本發明不但不會增加 成本,因為本發明的方法對於語音訊號的處理,不必對 發出合成語音的裝置作大幅更改,就可以讓傳統逐字發 出合成語音的裝置在發出詞句時,避免詞句中字音與字 音間的發音不連貫。 換句話說,即使語音庫中儲存的是獨立單字的字 音,經過本發明的裝置與方法處理之後,仍然可以在發 出詞句的聲音時,讓詞句中每個字的發音之音調及音量 前後相連貫而不致造成突兀感,以使機器所發出的聲音 更加接近真實人聲,提高合成語音之品質。習知技術所 使用的技術往往只利用參數之調整來模擬發音,所以字 音與子音連接處音貝律彳主在無法流暢’而利用本發明的方 法即能將語意分析,以使得句子與句子連接處的發音能 相連接,所以聽起來會有連續之感。因為以機器發出合 成語音的裝置為習知技術之範疇,所以本發明說明書於 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) 裝 · 476060 A7 ____B7_ 五、發明說明() (-1,先間讀背面之注意事項再瑣寫本頁) 此不加以贅述,僅就與本發明有關而對詞句中連接的字 音作快速聲音合成之平滑處理裝置與方法,於此說明書 中力口以說明。 圖一顯示的是本發明所提出的快速聲音合成之平 滑處理裝置與方法的功能方塊圖,當要由語音庫讀出一 連串字音以發出一整個句子的合成語音時,首先一連串 字音Si (例如第一字音S1與第二字音S2和第三字音S3) 分別被依序讀出,並且被依序饋入子音長度偵測裝置 3 與延遲裝置4,其中子音長度偵測裝置3是用以偵測出被 偵測字的字音中之氣音部分的時間長度,因為其做法乃 是取輸入字音的振幅小於一定程度時為依據,乃將習知 技術的原理轉用於本發明,故其細節於此不加贅述。此 外,延遲裝置4亦是屬於習知技術,只是本發明應用其 原理於不同應用範疇,其實施方式有很多種,例如延遲 線(delay line)或是延遲型正反器(Delay-type Flip Flop) 等可以將輸入訊號延遲一段時間之後再由其輸出端輸出 者,皆可以運用於本發明的裝置。 經濟部智慧財產局員工消費合作社印製 其中上述的子音長度偵測裝置3所輸出的訊號内 包含有輸入字音的子音之發音長度,其在本發明中係被 用於前後字音之重疊部分之時間長度,其詳細作用在後 續中說明。在上述一連串字音輸入本發明的裝置之過程 中,當例如第三字音S 3輸入第一處理裝置1 0時,同時 子音長度偵測裝置3的輸出也被饋送到第一處理裝置1 0 以及第二處理裝置15,並且其輸出包含了第三字音的子 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 經濟部智慧財產局員工消費合作社印制π 476060 A7 __B7_ 五、發明說明() 音長度。另外,延遲裝置4的輸出也被饋送到第一處理 裝置10以及第二處理裝置15,此時延遲裝置4的輸出 包含了第二字音S 2的訊號。 在上述的例子中,第三字音S 3的訊號、第二字音 S2的訊號以及第三字音的子音長度都被輸入第一處理裝 置1 0,而在本發明的第一較佳實施例中,第一處理裝置 1 〇的轉換特性曲線如圖二所示。其中橫軸(t)代表時間而 縱軸則代表增益(g a i η ),i則代表系統的計時脈衝,在本 較佳實施例中,例如當i = 3時,則表示正要讀出第三個 字音S3。Ti代表由起始到第i個字音結束的時間長度。 上述T i所代表的亦即是處理完第i個字音的時間, 另外,E(Si)代表第i個字音的子音長度,而L(Si)代表的 是第i個字音單獨的字音長度。由圖二中包含第一部份曲 線2 0 a與第二部分曲線2 0 b的曲線2 0,可以容易的觀察 到第三個字音的發音是由小逐漸變大的,因為第一處理 裝置的轉換函數(例如第一轉換函數Η 1)的第一部份曲線 20a由零逐漸增大,因為由圖二中可以看出第一部份曲 線 2 0a是遞增函數,在此實施例中其為步階函數(step function)。並且在本發明的一較佳實施例中,第一轉換 函數Η 1可以下列式子表示: H1(n,L(Si-1),E(Si))= Γ 0 當 T i -1 S t S T i -1 - E (S I) (t/n)當 Ti-1 -E(SI) $ Ti-1 1 當 Ti-1 S tS Ti- 1-E(SI) + L(Si) 、〇 當 G Ti 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) ,裝 訂: 476060 A7 B7 五、發明說明() 其中第一部份曲線2 0 a的表_ J表不式即為TM-E(SI)幺 的轉換特性曲線。在此實 施例中為(t/n),但若是基於其仙 (請先閱讀背面之注意事項再填寫本頁) 一他考量,亦可以用其他遞 增函數(或嚴格遞增函數)取代。 另外,在本發明的一較佳眚 貫%例中,第二處理裝置 1 5的轉換特性曲線如圖三所示。其中橫軸⑴代表時間而 縱軸則代表增益(gain),i則代表系統的計時脈衝,在本 車交佳實施例中,例如t i = 3時’則表示正要讀出第三個 字音S3。Ti代表由起始到第丨個字音結束的時間長度, 亦即處理完第i個字音的時間,E(Si)代表第丨個字音的 子音長度,而L(Si)代表的是第j個字音單獨的字音長 度。 由圖二中包含第一部份曲線3 〇 a與第二部分曲線 3 0 b的曲線3 0 ’可以容易的觀察到第二個字音的發音是 由大逐漸變小的,因為第二處理裝置的轉換函數(例如第 二轉換函數Η 2)的第一部份曲線3 〇 a逐漸減小到零,由 圖二中可以看出第一部份曲線3〇a是遞減函數,在此實 施例中其為步階函數(step function)。並且在本發明的一 較佳實施例中,第二轉換函數Η 2可以下列式子表示: H2(n,L(Si-1),E(Si))=厂 〇 當 Ti-2 1 當 Ti-2StSTi-2+L(SM) + E(Si-1) 經濟部智慧財產局員工消費合作社印製 1-(t/n)當 Ti-2 + L(SM)-E(Sl)$t$Ti-1 當 Ή-1 $ t 其中代表上述第一部份曲線 30a的者,即為 Ti- 11 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 476060 A7 B7 經濟部智慧財產局員工消費合作社印製 五、發明說明() 2 + L(SM)-E(SI)St$Ti-l 時 H2(n,L(Si-1),E(Si))的轉換 ^ ,L 每 U.1 丄 认 Χ/,,、 . .. 特性曲線 量,亦可以 經過第 _ 後,將其分別的輸出訊號加成,即可以得到經過處理的 聲音訊號vi,其中所含的第二字音S2的音量是漸漸變 小,而第三字音S3的音量是漸漸變大的,所以經過本發 明的快速聲音合成之平滑處理裝置與方法處理過的合成 語音所發出的聲音並不會有不連續之感。 本發明的1置與方法著重在兩聲音銜接時的平滑 處理,當前後兩音銜接時,應偵測後音之子音長度,並 以此長度作為前後兩音重疊時之參考長度,並且^疊處 理時前音(本實施例中是以S3為例)以階梯函數(本$ : 例中是以第二轉換函數H2為例)處理,而後音(本實施^ 中是以S 2為例)以階梯函數(本實施例中是以努 _ & μ弟一轉換函 數Η 1為例)處理,再將所處理之後的聲音舌% , 曰里:g:。依此原 理處理所有字音的發音之後,亦即將整個甸5★ # 士 —, 句的字音處 理完畢之後,其中母個字音與字音之間的聲音是互相 疊的,所以經過本發明的方法與裝置處理夕1 土 <傻,即可以 得到完整詞彙之發音。 而透過上述階梯(或步階)函數之處理, ’在時域中可 以看見前音的訊號平滑地連接到後音的$ % .^ L 无日的戒就’所以發音 時,前音之發音也順利地連接到後音的菸立 J $ 曰,因此话淫 了前後音銜接時發音的不順暢。由於复 ' 、/、十滑處理採用階 在此實施例中為1 - (t / η)。但若是基於其他考 用其他遞減函數(或嚴格遞減函數)取代。 處理裝置10及第二處理裝置15處理之 12 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公爱 (請先閱讀背面之注意事項再填寫本頁) m 裝 訂, 476060 A7 B7_ 五、發明說明() 梯函數,其運算極為簡單,故此平滑處理模式可以運用 於電腦的快速平滑處理,大幅提昇其處理效能而避免設 備之複雜化。 但若是基於其他考量,對於本發明的此實施例中所 使用的階梯函數,也可以利用其他函數取代。例如本發 明實施例中所使用的階梯函數中之梯、度(η)決定階梯函數 的平滑度,η值越大,平滑度約高,最終趨近於線性。亦 即階梯函數在η趨近於很大的數值時,可以視為直線的 效果,亦即若有其他考量時,上述的階梯函數可以用斜 坡函數(ramp function)取代,或是以其他嚴格遞增函數 或是遞增函數(嚴格遞減函數或是遞減函數)來取代,此類 修為熟知該項技藝者依據本發明的裝置與方法之揭露而 可以輕易推知者,改並不脫離本發明的精神與範疇之 外。 經濟部智慧財產局員工消費合作社印製 !-|---_----4裝—— (請先閱讀背面之注意事項再填寫本頁) 以上所述僅為本發明之較佳實施例而已,並非用以 限定本發明之申請專利範圍;凡其它未脫離本發明所揭 示之精神下所完成之等效改變或修飾,例如在本發明的 一較佳實施例中,用以處理字音的階梯函數,也可以利 用其他函數的多項式(或將其中的高次項刪除),只要能快 速的運算即可。甚至所處理的字音訊號也不限於處理兩 個相鄰的字音訊號,也可以一次處理兩個以上的字音訊 號。只要在合成語音發音時,可以利用本發明的函數或 其他適當函數加以平滑化之後再作銜接處理即可。故任 何對本發明的函數之之改變或修飾,以將前後字音銜接 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 476060 A7 __B7_ 五、發明說明() 之快速聲音合成之平滑處理裝置與方法,均應包含在下 述之申請專利範圍内。 (請先閱讀背面之注意事項再填寫本頁) 裝 訂---------總
P 經濟部智慧財產局員工消費合作社印製 14 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐)

Claims (1)

  1. 經濟部智慧財產局員工消費合作社印製 476060 Λ8 B8 C8 08 六、申請專利範圍 1 . 一種聲音合成的平滑處理裝置,係在讀出合成語音訊 號時,使所發出的合成語音中每個字音間之發音平滑 化,該聲音合成的平滑處理裝置至少包含·· 子音長度偵測裝置,係用於偵測出依序輸出的每個 合成語音訊號的子音發聲時間長度; 延遲裝置,係用於將每個合成語音訊號輸入該延遲 裝置而延遲一段特定時間之後,再行將所輸入的每個合 成語音訊號輸出該延遲裝置; 第一處理裝置,係兩於在合成語音訊號中的第一合 成語音訊號以及第二合成語音訊號被依序輸入到該第一 處理裝置時,相應於該第二合成語音訊號由起始點開始 的重疊時段内,該第一處理裝置的增益大小由零漸增至 一特定值,並且維持在該特定值,直到該第二合成語音 訊號結束之後才又回歸到零,該重疊時段的長度等於該 子音長度偵測裝置對連續的該第一合成語音訊號以及該 第二合成語音訊號中較慢輸入的該第二合成語音訊號偵 測之後所得到的後子音長度,該第一處理裝置的增益大 小由零漸增至該特定值時,其轉換函數為第一轉換函 數,該第一轉換函數為遞增函數; 第二處理裝置,係用於依據該子音長度偵測裝置所 偵測得的每個合成語音訊號的子音發聲時間長度,當合 成語音訊號中的該第一合成語音訊號以及該第二合成語 音訊號被依序輸入到該第二處理裝置時,該第一合成語 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) ------------W裝—— ·**· (請先閱讀背面之注意事項再填寫本頁) 訂·- .^- 476060 A8 B8 C8 D8 六、申請專利範圍 (請先閱讀背面之注意事項再填寫本頁) 音訊號由衰減起始點開始到第一合成語音訊號結束的該 重疊時段内,該第一處理裝置的增益大小由該特定值漸 漸減小到零,該重疊時段的長度等於該子音長度偵測裝 置偵測該第二合成語音訊號所得的該後子音長度,該第 二處理裝置的增益大小由該特定值漸減至零時,其所對 應的函數為第二轉換函數,該第二轉換函數為遞減函 數;以及 加成裝置,係用於將該第一處理裝置以及該第二處 理裝置的輸出訊號疊加,使得該重疊時段内的該第一合 成語音訊號與該重疊時段内的第二合成語音訊號相加, 藉以使得該第一合成語音訊號,及其後段中該重疊時段 内所疊加的該第一合成語音訊號與該第二合成語音訊 號,連同該重疊時段之後的該第二合成語音訊號結合之 後,使所發出的合成語音中之每個字音間之發音平滑 2. 如申請專利範圍第1項之聲音合成的平滑處理裝置, 其中上述之第一轉換函數為該遞增函數的一種之步階函 數(step function) ° 經濟部智慧財產局員工消費合作社印製 3. 如申請專利範圍第1項之聲音合成的平滑處理裝置, 其中上述之第一轉換函數為該遞增函數的一種之斜坡函 數(ramp function) 〇 4. 如申請專利範圍第1項之聲音合成的平滑處理裝置, 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 476060 A8 B8 C8 D8 t、申請專利範圍 其中上述之第二轉換函數為該遞減函數的一種之步階函 數(step function)。 5. 如申請專利範圍第1項之聲音合成的平滑處理裝置, 其中上述之第二轉換函數為該遞減函數的一種之斜坡函 數(ramp function) ° 6. —種聲音合成的平滑處理裝置,係在讀出合成語音訊 號時,使所發出的合成語音中每個字音間之發音平滑 化,該聲音合成的平滑處理裝置至少包含: 子音長度偵測裝置,係用於偵測出依序輸出的每個 合成語音訊號的子音發聲時間長度; 延遲裝置,係用於將每個合成語音訊號輸入該延遲 裝置而延遲一段特定時間之後,再行將所輸入的每個合 成語音訊號輸出該延遲裝置; 經濟部智慧財產局員工消費合作社印製 -----^---,0--------- (請先閱讀背面之注意事項再填寫本頁) 第一處理裝置,係用於在合成語音訊號中的第一合 成語音訊號以及第二合成語音訊號被依序輸入到該第一 處理裝置時,相應於該第二合成語音訊號由起始點開始 的重疊時段内,該第一處理裝置的增益大小由零漸增至 一特定值,並且維持在該特定值,直到該第二合成語音 訊5虎結束之後才又回知到零,该重豐時段的長度專於4亥 子音長度偵測裝置對連續的該第一合成語音訊號以及該 第二合成語音訊號中較慢輸入的該第二合成語音訊號偵 測之後所得到的後子音長度,該第一處理裝置的增益大 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 476060 A8 B8 C8 D8 t、申請專利範圍 (請先閱讀背面之注意事項再填寫本頁) 小由零漸增至該特定值時,其轉換函數為第一轉換函 數,該第一轉換函數為一種遞增的步階函數(step function); 第二處理裝置,係用於依據該子音長度偵測裝置所 偵測得的每個合成語音訊號的子音發聲時間長度,當合 成語音訊號中的該第一合成語音訊號以及該第二合成語 音訊號被依序輸入到該第二處理裝置時,該第一合成語 音訊號由衰減起始點開始到第一合成語音訊號結束的該 重疊時段内,該第二處理裝置的增益大小由該特定值漸 漸減小到零,該重疊時段的長度等於該子音長度偵測裝 置偵測該第二合成語音訊號所得的該後子音長度,該第 二處理裝置的增益大小由該特定值漸減至零時,其所對 應的函數為第二轉換函數,該第二轉換函數為一種遞減 的步階函數;以及 經濟部智慧財產局員工消費合作社印製 加成裝置,係用於將該第一處理裝置以及該第二處 理裝置的輸出訊號疊加,使得該重疊時段内的該第一合 成語音訊號與該重疊時段内的第二合成語音訊號相加, 藉以使得該第一合成語音訊號,及其後段中該重疊時段 内所疊加的該第一合成語音訊號與該第二合成語音訊 號,連同該重疊時段之後的該第二合成語音訊號結合之 後,使所發出的合成語音中之每個字音間之發音平滑 化。 7. —種聲音合成的平滑處理方法,係在讀出合成語音訊 號時,使所發出的合成語音中每個字音間之發音平滑 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 476060 A8 B8 C8 D8 t、申請專利範圍 化,該聲音合成的平滑處理方法至少包含: (請先閱讀背面之注意事項再填寫本頁) 偵測出依序輸出的每個合成語音訊號的子音發聲 時間長度,同時將每個合成語音訊號延遲一段特定時間 之後,再行輸出; ·. 以第一轉換函數乘以合成語音訊號中的第一合成 語音訊號以及第二合成語音訊號,其中該第一轉換函數 的轉換特性曲線相應於該第二合成語音訊號由起始點開 始的重疊時段内,其增益大小由零漸增至一特定值,並 且維持在該特定值,直到該第二合成語音訊號結束之後 才又回歸到零,該重疊時段的長度等於連續的該第一合 成語音訊號以及該第二合成語音訊號中較慢輸入的該第 二合成語音訊號的子音發聲時間長度,該第一轉換函數 為遞增函數; 以第二轉換函數乘以合成語音訊號中的第一合成 語音訊號以及第二合成語音訊號,其中該第二轉換函數 的轉換特性曲線相應於該第一合成語音訊號,於該第一 合成語音訊號由衰減起始點開始到第一合成語音訊號結 束的該重疊時段内,該第一處理裝置的增益大小由該特 定值漸漸減小到零,該重疊時段的長度等於該後子音長 度,該第二轉換函數為遞減函數;以及 經濟部智慧財產局員工消費合作社印製 將經過該第一函數處理的部分該第二合成語音訊 號與經過該第二函數處理的部分該第一合成語音訊號疊 加,使得該重疊時段内的該第一合成語音訊號與該重疊 時段内的第二合成語音訊號相加,藉以使得該第一合成 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 476060 A8 B8 C8 D8 t、申請專利範圍 (請先閱讀背面之注意事項再填寫本頁) 語音訊號,及其後段内該重疊時段中所疊加的經過該第 一函數處理的部分該第二合成語音訊號與經過該第二函 數處理的部分該第一合成語音訊號,連同該重疊時段之 後的該第二合成語音訊號結合之後,使所發出的合成語 音中之每個字音間之發音平滑化。 8. 如申請專利範圍第 7項之聲音合成的平滑處理方法, 其中上述之第一轉換函數為遞增之步階函數(step function) ° 9. 如申請專利範圍第7項之聲音合成的平滑處理方法, 其中上述之第一轉換函數為遞增之斜坡函數(「amp function) ° 1 0.如申請專利範圍第7項之聲音合成的平滑處理方法, 其中上述之第二轉換函數為遞減之步階函數(step function) 〇 1 1 .如申請專利範圍第7項之聲音合成的平滑處理裝置, 其中上述之第二轉換函數為遞減之斜坡函數(ramp function)。 經濟部智慧財產局員工消費合作社印製 1 2. —種聲音合成的平滑處理方法,係在讀出合成語音訊 號時,使所發出的合成語音中每個字音間之發音平滑 化,該聲音合成的平滑處理方法至少包含: 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 476060 A8 B8 C8 D8 t、申請專利範圍 (請先閱讀背面之注意事項再填寫本頁) 偵測出依序輸出的每個合成語音訊號的子音發聲 時間長度,同時將每個合成語音訊號延遲一段特定時間 之後,再行輸出; 以第一轉換函數乘以合成語音訊號中的第一合成 語音訊號以及第二合成語音訊號,其中該第一轉換函數 的轉換特性曲線相應於該第二合成語音訊號由起始點開 始的重疊時段内,其增益大小由零漸增至一特定值,並 且維持在該特定值,直到該第二合成語音訊號結束之後 才又回歸到零,該重疊時段的長度等於連續的該第一合 成語音訊號以及該第二合成語音訊號中較慢輸入的該第 二合成語音訊號的子音發聲時間長度,該第一轉換函數 為遞增的步階函數(step function); 以第二轉換函數乘以合成語音訊號中的第一合成 語音訊號以及第二合成語音訊號,其中該第二轉換函數 的轉換特性曲線相應於該第一合成語音訊號,於該第一 合成語音訊號由衰減起始點開始到第一合成語音訊號結 束的該重疊時段内,該第一處理裝置的增益大小由該特 定值漸漸減小到零,該重疊時段的長度等於該後子音長 度,該第二轉換函數為遞減的步階函數;以及 經濟部智慧財產局員工消費合作社印製 將經過該第一函數處理的部分該第二合成語音訊 號與經過該第二函數處理的部分該第一合成語音訊號疊 加,使得該重疊時段内的該第一合成語音訊號與該重疊 時段内的第二合成語音訊號相加,藉以使得該第一合成 語音訊號,及其後段内該重疊時段中所疊加的經過該第 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 476060 A8 B8 C8 D8 申請專利範圍 函之語 二段成 第時合 該疊的 過重出 經該發 與同所 號連使 訊,, 音號後。 語訊之化 成音合''f 合語結平 二成號音 第合訊發 該一音之 分第語間 部該成音 的分合字 理部二個 處的第每 數理該之 函處的中 一 數後音 1 I ______I I ^ · I I I I I 11 *^" (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐)
TW89110181A 2000-05-25 2000-05-25 Smoothening apparatus and method for quick synthesized voice TW476060B (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW89110181A TW476060B (en) 2000-05-25 2000-05-25 Smoothening apparatus and method for quick synthesized voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW89110181A TW476060B (en) 2000-05-25 2000-05-25 Smoothening apparatus and method for quick synthesized voice

Publications (1)

Publication Number Publication Date
TW476060B true TW476060B (en) 2002-02-11

Family

ID=21659858

Family Applications (1)

Application Number Title Priority Date Filing Date
TW89110181A TW476060B (en) 2000-05-25 2000-05-25 Smoothening apparatus and method for quick synthesized voice

Country Status (1)

Country Link
TW (1) TW476060B (zh)

Similar Documents

Publication Publication Date Title
US11443733B2 (en) Contextual text-to-speech processing
EP3387646B1 (en) Text-to-speech processing system and method
US8224645B2 (en) Method and system for preselection of suitable units for concatenative speech
US7565291B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
TW466470B (en) Identification of unit overlap regions for concatenative speech synthesis system
US20130041669A1 (en) Speech output with confidence indication
JP2001034283A (ja) 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体
CA2145298A1 (en) Method and apparatus for speech synthesis
JPH08512150A (ja) ニューラル・ネットワークを利用してテキストを可聴信号に変換する方法および装置
CN106710585A (zh) 语音交互过程中的多音字播报方法及系统
Aida-Zade et al. The main principles of text-to-speech synthesis system
CN115273776A (zh) 端到端歌声合成方法、计算机设备及存储介质
TW476060B (en) Smoothening apparatus and method for quick synthesized voice
JPH03273280A (ja) 発声練習用音声合成方式
TW508564B (en) Method and system for phonetic recognition
JPH0962286A (ja) 音声合成装置および音声合成方法
JP6631186B2 (ja) 音声作成装置、方法、及びプログラム、音声データベース作成装置
TW470927B (en) Device and method for smoothening synthesized voice speech
KR0134707B1 (ko) 다이폰 단위를 이용한 엘에스피(lsp)방식의 음성 합성 방법
JP3270668B2 (ja) テキストからスピーチへの人工的ニューラルネットワークに基づく韻律の合成装置
Xie et al. FireRedTTS: The Xiaohongshu Speech Synthesis System for Blizzard Challenge 2023.
Dessai et al. Development of Konkani TTS system using concatenative synthesis
JPH04270394A (ja) ポーズ長決定方式
JP2680643B2 (ja) 規則合成装置の文字表示方法
JP2819904B2 (ja) 連続音声認識装置

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees