TW476060B - Smoothening apparatus and method for quick synthesized voice - Google Patents
Smoothening apparatus and method for quick synthesized voice Download PDFInfo
- Publication number
- TW476060B TW476060B TW89110181A TW89110181A TW476060B TW 476060 B TW476060 B TW 476060B TW 89110181 A TW89110181 A TW 89110181A TW 89110181 A TW89110181 A TW 89110181A TW 476060 B TW476060 B TW 476060B
- Authority
- TW
- Taiwan
- Prior art keywords
- speech signal
- synthesized speech
- function
- signal
- length
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 75
- 238000006243 chemical reaction Methods 0.000 claims abstract description 59
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 39
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 39
- 238000005259 measurement Methods 0.000 claims abstract 2
- 238000009499 grossing Methods 0.000 claims description 23
- 230000003247 decreasing effect Effects 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 13
- 230000007423 decrease Effects 0.000 claims description 8
- 230000002079 cooperative effect Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 230000005236 sound signal Effects 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 claims description 4
- 230000003111 delayed effect Effects 0.000 claims 1
- 230000001755 vocal effect Effects 0.000 abstract 3
- 238000005516 engineering process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 208000037656 Respiratory Sounds Diseases 0.000 description 1
- 206010043417 Therapeutic response unexpected Diseases 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Document Processing Apparatus (AREA)
Description
經濟部智慧財產局員工消費合作社印製 476060 A7 B7_ 五、發明說明() 5-1發明領域 本發明係有關於一種聲音合成平滑處理之方法與 裝置,特別是有關於一種可以快速地將聲音合成平滑處 理之方法與裝置。 5-2發明背景 在自動化設備使用日益頻繁的現代,作為使用者與 自動化系統溝通之用的人機介面,為了讓使用者便於依 照指示操作機器,或是讓使用者獲得語音内的資訊,必 須會讓機器發出合成語音,所以合成語音若可以盡量接 近人類發出的自然語音,將會讓使用者覺得有親切感, 甚至更容易操作。 然而現在一般聲音合成的方式大約分為三種:一、 口腔模型參數法,二、原音參數法,三、聲音串接法。 上述的各種方法各有如下的缺點。口腔模型參數法的缺 點是效果太假,很容易就可以判定為機器合成聲音。而 原音參數法則是因為要減少須儲存的資料置,所以在儲 存時就將其高頻部分捨棄,以致於以原音參數法發音 時,合成效果不清晰(因為人聲的較高頻部分消失)。串接 法則銜接處理不易,儲存的資料量大,所以在以前儲存 裝置容量成本高時,一般並不會考慮使用此方法,然而 在機器發出單字的合成語音時,此方法卻是具有最佳發 音品質,所以聲音串接法在儲存媒體容量不斷變大、儲 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁)
·1111111 . I I — II 經濟部智慧財產局員工消費合作社印製 476060 A7 B7_ 五、發明說明() 存成本降低的情形下,仍是語音合成的重要方法,只是 必須要克服每個字音之間連接的問題,否則即使每個字 音的發音都自然,但是當兩個字音連接時,聽起來仍然 不像人類的自然語音、無法達到提昇合成語音發音品質 的目的。 在不考慮破音字的情形下,一般而言,同一個字雖 然其單字的發音(字音)是固定的,但是在人類所發出的自 然語音當中,在不同的詞句内,會因為其前後所連接的 字不同,以致其發音必須因為前後的文字而改變。這種 連音的情形在英文發音中特別明顯,在中文發音中雖然 較不明顯,但是若細究中文語音的發音結構,可以發現 中文語音中每個單字的發音包括聲母、介音以及韻母, 並且發出韻母之後的一段延續時間内所發的是氣音,音 量很小。接著在下一字音之前並不會發出聲音。 若是將每一個字音單獨儲存在語音庫,要讀出一個 句子時再由語音庫個別讀出複數個單字字音,並且這複 數個單字字音之間只是直接串接,則所發出的複數個單 字字音聽起來就不像是一個句子,每兩個字的發音中間 的間斷變得很明顯,聽起來會與一般自然語音有很大的 差別。因為在詞句中一個單字的發音與另一個詞句中同 一個單字的發音(音量或音調)並不相同。在合成語音的應 用中,如果要儲存所有詞句以避免由單字發音逐一連接 所造成的斷音問題,所需儲存的空間極大,實務上並不 可行。所以儲存單字的發音,再將單字的發音連接成為 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) ^--------II-------- 經濟部智慧財產局員工消費合作社印製 476060 A7 B7_ 五、發明說明() 一個詞句的發音較為可行,並且為了運算快速起見,處 理合成語音的方法最好越簡單越好。 過去串接法在字與字連接處韻律往往無法得處理 流暢,連續字音之間無法銜接,因此聽起來會有間斷、 變調的感覺,需要提出一種機器發出一個詞句的合成語 音時,不只將其中每個字的發音作處理,更要使合成語 音發音時,每個發音的字與字之間的連接更為平順的方 法,以提高合成語音之發音品質,並且此方法必須具有 快速運算的優點,使其適用於實際運作。 5 - 3發明目的及概述 鑒於上述之發明背景中,語音合成的運用範圍越來 越廣,傳統的裝置與方法無法快速而且簡單的將合成語 音平滑化處理。所以本發明提出一種聲音合成的平滑處 理裝置與方法,使其具有良好的合成聲音串接效果,並 且因為其運算極為簡單,所以更適合一般不要花費大量 成本的使用者。 本發明所提出的聲音合成平滑處理裝置與方法,係 在讀出合成語音訊號時,使所發出的合成語音中每個字 音間之發音平滑化,上述之聲音合成平滑處理裝置包含 下列元件:聲母長度偵測裝置,係用於偵測出依序輸出 的每個合成語音訊號的聲母發聲時間長度。延遲裝置, 係用於將每個合成語音訊號輸入上述之延遲裝置而延遲 一段特定時間之後,再行將所輸入的每個合成語音訊號 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) -裝--------訂---------繞 %- 經濟部智慧財產局員工消費合作社印製 476060 A7 B7_ 五、發明說明() 輸出上述之延遲裝置。 第一處理裝置,係用於合成語音訊號中的第一合成 語音訊號以及第二合成語音訊號被依序輸入到第一處理 裝置時,相應於第二合成語音訊號由起始點開始的重疊 時段中,其增益大小由零漸增至一特定值,並且維持在 上述之特定值,直到上述之第二合成語音訊號結束之後 才又回歸到零,上述之重疊時段的長度等於子音長度偵 測裝置對連續的第一合成語音訊號以及第二合成語音訊 號中較慢輸入的第二合成語音訊號偵測之後所得到的後 子音長度。第一處理裝置的增益大小由零漸增至上述之 特定值時,其轉換函數為第一轉換函數,其為遞增函數。 第二處理裝置,係用於依據上述之子音長度偵測裝 置所偵測得的每個合成語音訊號的子音發聲時間長度, 當合成語音訊號中的第一合成語音訊號以及第二合成語 音訊號被依序輸入到上述之第二處理裝置時,第一合成 語音訊號由衰減起始點開始,到第一合成語音訊號結束 的上述之重疊時段内,上述之第一處理裝置的增益大小 由上述之特定值漸漸減小到零。上述之重疊時段的長度 等於上述之子音長度偵測裝置偵測第二合成語音訊號所 得的後子音長度。第二處理裝置的增益大小由上述之特 定值漸減至零時,其所對應的函數為第二轉換函數。上 述之第二轉換函數為遞減函數。 加成裝置,係用於將上述之第一處理裝置以及第二 處理裝置的輸出訊號疊加,使得重疊時段内的第一合成 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) _
Λ ί n n m n an n 一 rT I n HI in —a— n teamf m I 476060 A7 B7 五、發明說明() (請先閱讀背面之注意事項再填寫本頁) 語音訊號與重疊時段内的第二合成語音訊號相加。藉以 使得上述之第一合成語音訊號,及其後段内的重疊時段 所疊加的第一合成語音訊號與第二合成語音訊號,連同 重疊時段之後的第二合成語音訊號結合之後,使所發出 的合成語音中之每個字音間之發音平滑化。 其中上述之第一轉換函數可以為遞增的步階函數 (stepfunct ion)或是遞增的斜坡函數(ramp function)。上 述之第二轉換函數可以為遞減的步階函數(stepfunction) 或是斜坡函數(ramp function)。 經濟部智慧財產局員工消費合作社印製 本發明所提出的聲音合成平滑處理方法,係在讀出 合成語音訊號時,使所發出的合成語音中每個字音間之 發音平滑化,上述之聲音合成的平滑處理方法包含下列 步驟:首先偵測出依序輸出的每個合成語音訊號的子音 發聲時間長度,同時將每個合成語音訊號延遲一段特定 時間之後再行輸出。然後以第一轉換函數乘以合成語音 訊號中的第一合成語音訊號以及第二合成語音訊號,其 中上述之第一轉換函數的轉換特性曲線相應於第二合成 語音訊號由起始點開始的重疊時段内,其增益大小由零 漸增至一特定值,並且維持在上述之特定值,直到上述 之第二合成語音訊號結束之後才又回歸到零。上述之重 疊時段的長度等於連續的第一合成語音訊號以及第二合 成語音訊號中較慢輸入的第二合成語音訊號的子音發聲 時間長度,上述之第一轉換函數為遞增函數。 接著以第二轉換函數乘以合成語音訊號中的第一 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 經濟部智慧財產局員工消費合作社印製 476060 A7 B7_ 五、發明說明() 合成語音訊號以及第二合成語音訊號,其中上述之第二 轉換函數的轉換特性曲線相應於上述之第一合成語音訊 號,於第一合成語音訊號由衰減起始點開始到第一合成 語音訊號結束的重疊時段内,上述之第一處理裝置的增 益大小由上述之特定值漸漸減小到零。上述之重疊時段 的長度等於上述的後子音長度,上述之第二轉換函數為 遞減函數。最後將經過上述第一函數處理的部分第二合 成語音訊號與經過上述第二函數處理的部分第一合成語 音訊號疊加,使得上述之重疊時段内的第一合成語音訊 號與上述之重疊時段内的第二合成語音訊號相加,藉以 使得上述之第一合成語音訊號,及其後段内上述之重疊 時段中所疊加的經過第一函數處理的部分第二合成語音 訊號與經過上述第二函數處理的部分第一合成語音訊 號,連同上述之重疊時段後的第二合成語音訊號結合之 後,使所發出的合成語音中之每個字音間之發音平滑 化。 5-4圖式簡單說明 將後續的說明配合下列圖式,即可以對於本發明的 特徵有更為清楚之了解,其中: 圖一顯示的是本發明的快速聲音合成之平滑處理 裝置與方法的一較佳實施例的功能方塊圖; 圖二顯示的是依據本發明的快速聲音合成之平滑 處理裝置與方法中之一較佳實施例所利用的第一處理裝 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) 裝--------訂---------線 經濟部智慧財產局員工消費合作社印製 476060 A7 ___B7_ 五、發明說明() 置的轉換函數圖;以及 圖三顯示的是依據本發明的快速聲音合成之平滑 處理裝置與方法中之一較佳實施例所利用的第二處理裝 置的轉換函數圖。 5-5發明詳細說明 因為在一般習知的合成語音之技術中,並未有成本 低廉又有良好效果的處理合成語音之方法與裝置,以致 現在市面上的語音合成產品,通通無法以較低廉的價格 來製造出高品質的語音合成裝置。本發明不但不會增加 成本,因為本發明的方法對於語音訊號的處理,不必對 發出合成語音的裝置作大幅更改,就可以讓傳統逐字發 出合成語音的裝置在發出詞句時,避免詞句中字音與字 音間的發音不連貫。 換句話說,即使語音庫中儲存的是獨立單字的字 音,經過本發明的裝置與方法處理之後,仍然可以在發 出詞句的聲音時,讓詞句中每個字的發音之音調及音量 前後相連貫而不致造成突兀感,以使機器所發出的聲音 更加接近真實人聲,提高合成語音之品質。習知技術所 使用的技術往往只利用參數之調整來模擬發音,所以字 音與子音連接處音貝律彳主在無法流暢’而利用本發明的方 法即能將語意分析,以使得句子與句子連接處的發音能 相連接,所以聽起來會有連續之感。因為以機器發出合 成語音的裝置為習知技術之範疇,所以本發明說明書於 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) 裝 · 476060 A7 ____B7_ 五、發明說明() (-1,先間讀背面之注意事項再瑣寫本頁) 此不加以贅述,僅就與本發明有關而對詞句中連接的字 音作快速聲音合成之平滑處理裝置與方法,於此說明書 中力口以說明。 圖一顯示的是本發明所提出的快速聲音合成之平 滑處理裝置與方法的功能方塊圖,當要由語音庫讀出一 連串字音以發出一整個句子的合成語音時,首先一連串 字音Si (例如第一字音S1與第二字音S2和第三字音S3) 分別被依序讀出,並且被依序饋入子音長度偵測裝置 3 與延遲裝置4,其中子音長度偵測裝置3是用以偵測出被 偵測字的字音中之氣音部分的時間長度,因為其做法乃 是取輸入字音的振幅小於一定程度時為依據,乃將習知 技術的原理轉用於本發明,故其細節於此不加贅述。此 外,延遲裝置4亦是屬於習知技術,只是本發明應用其 原理於不同應用範疇,其實施方式有很多種,例如延遲 線(delay line)或是延遲型正反器(Delay-type Flip Flop) 等可以將輸入訊號延遲一段時間之後再由其輸出端輸出 者,皆可以運用於本發明的裝置。 經濟部智慧財產局員工消費合作社印製 其中上述的子音長度偵測裝置3所輸出的訊號内 包含有輸入字音的子音之發音長度,其在本發明中係被 用於前後字音之重疊部分之時間長度,其詳細作用在後 續中說明。在上述一連串字音輸入本發明的裝置之過程 中,當例如第三字音S 3輸入第一處理裝置1 0時,同時 子音長度偵測裝置3的輸出也被饋送到第一處理裝置1 0 以及第二處理裝置15,並且其輸出包含了第三字音的子 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 經濟部智慧財產局員工消費合作社印制π 476060 A7 __B7_ 五、發明說明() 音長度。另外,延遲裝置4的輸出也被饋送到第一處理 裝置10以及第二處理裝置15,此時延遲裝置4的輸出 包含了第二字音S 2的訊號。 在上述的例子中,第三字音S 3的訊號、第二字音 S2的訊號以及第三字音的子音長度都被輸入第一處理裝 置1 0,而在本發明的第一較佳實施例中,第一處理裝置 1 〇的轉換特性曲線如圖二所示。其中橫軸(t)代表時間而 縱軸則代表增益(g a i η ),i則代表系統的計時脈衝,在本 較佳實施例中,例如當i = 3時,則表示正要讀出第三個 字音S3。Ti代表由起始到第i個字音結束的時間長度。 上述T i所代表的亦即是處理完第i個字音的時間, 另外,E(Si)代表第i個字音的子音長度,而L(Si)代表的 是第i個字音單獨的字音長度。由圖二中包含第一部份曲 線2 0 a與第二部分曲線2 0 b的曲線2 0,可以容易的觀察 到第三個字音的發音是由小逐漸變大的,因為第一處理 裝置的轉換函數(例如第一轉換函數Η 1)的第一部份曲線 20a由零逐漸增大,因為由圖二中可以看出第一部份曲 線 2 0a是遞增函數,在此實施例中其為步階函數(step function)。並且在本發明的一較佳實施例中,第一轉換 函數Η 1可以下列式子表示: H1(n,L(Si-1),E(Si))= Γ 0 當 T i -1 S t S T i -1 - E (S I) (t/n)當 Ti-1 -E(SI) $ Ti-1 1 當 Ti-1 S tS Ti- 1-E(SI) + L(Si) 、〇 當 G Ti 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) (請先閱讀背面之注意事項再填寫本頁) ,裝 訂: 476060 A7 B7 五、發明說明() 其中第一部份曲線2 0 a的表_ J表不式即為TM-E(SI)幺 的轉換特性曲線。在此實 施例中為(t/n),但若是基於其仙 (請先閱讀背面之注意事項再填寫本頁) 一他考量,亦可以用其他遞 增函數(或嚴格遞增函數)取代。 另外,在本發明的一較佳眚 貫%例中,第二處理裝置 1 5的轉換特性曲線如圖三所示。其中橫軸⑴代表時間而 縱軸則代表增益(gain),i則代表系統的計時脈衝,在本 車交佳實施例中,例如t i = 3時’則表示正要讀出第三個 字音S3。Ti代表由起始到第丨個字音結束的時間長度, 亦即處理完第i個字音的時間,E(Si)代表第丨個字音的 子音長度,而L(Si)代表的是第j個字音單獨的字音長 度。 由圖二中包含第一部份曲線3 〇 a與第二部分曲線 3 0 b的曲線3 0 ’可以容易的觀察到第二個字音的發音是 由大逐漸變小的,因為第二處理裝置的轉換函數(例如第 二轉換函數Η 2)的第一部份曲線3 〇 a逐漸減小到零,由 圖二中可以看出第一部份曲線3〇a是遞減函數,在此實 施例中其為步階函數(step function)。並且在本發明的一 較佳實施例中,第二轉換函數Η 2可以下列式子表示: H2(n,L(Si-1),E(Si))=厂 〇 當 Ti-2 1 當 Ti-2StSTi-2+L(SM) + E(Si-1) 經濟部智慧財產局員工消費合作社印製 1-(t/n)當 Ti-2 + L(SM)-E(Sl)$t$Ti-1 當 Ή-1 $ t 其中代表上述第一部份曲線 30a的者,即為 Ti- 11 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 476060 A7 B7 經濟部智慧財產局員工消費合作社印製 五、發明說明() 2 + L(SM)-E(SI)St$Ti-l 時 H2(n,L(Si-1),E(Si))的轉換 ^ ,L 每 U.1 丄 认 Χ/,,、 . .. 特性曲線 量,亦可以 經過第 _ 後,將其分別的輸出訊號加成,即可以得到經過處理的 聲音訊號vi,其中所含的第二字音S2的音量是漸漸變 小,而第三字音S3的音量是漸漸變大的,所以經過本發 明的快速聲音合成之平滑處理裝置與方法處理過的合成 語音所發出的聲音並不會有不連續之感。 本發明的1置與方法著重在兩聲音銜接時的平滑 處理,當前後兩音銜接時,應偵測後音之子音長度,並 以此長度作為前後兩音重疊時之參考長度,並且^疊處 理時前音(本實施例中是以S3為例)以階梯函數(本$ : 例中是以第二轉換函數H2為例)處理,而後音(本實施^ 中是以S 2為例)以階梯函數(本實施例中是以努 _ & μ弟一轉換函 數Η 1為例)處理,再將所處理之後的聲音舌% , 曰里:g:。依此原 理處理所有字音的發音之後,亦即將整個甸5★ # 士 —, 句的字音處 理完畢之後,其中母個字音與字音之間的聲音是互相 疊的,所以經過本發明的方法與裝置處理夕1 土 <傻,即可以 得到完整詞彙之發音。 而透過上述階梯(或步階)函數之處理, ’在時域中可 以看見前音的訊號平滑地連接到後音的$ % .^ L 无日的戒就’所以發音 時,前音之發音也順利地連接到後音的菸立 J $ 曰,因此话淫 了前後音銜接時發音的不順暢。由於复 ' 、/、十滑處理採用階 在此實施例中為1 - (t / η)。但若是基於其他考 用其他遞減函數(或嚴格遞減函數)取代。 處理裝置10及第二處理裝置15處理之 12 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公爱 (請先閱讀背面之注意事項再填寫本頁) m 裝 訂, 476060 A7 B7_ 五、發明說明() 梯函數,其運算極為簡單,故此平滑處理模式可以運用 於電腦的快速平滑處理,大幅提昇其處理效能而避免設 備之複雜化。 但若是基於其他考量,對於本發明的此實施例中所 使用的階梯函數,也可以利用其他函數取代。例如本發 明實施例中所使用的階梯函數中之梯、度(η)決定階梯函數 的平滑度,η值越大,平滑度約高,最終趨近於線性。亦 即階梯函數在η趨近於很大的數值時,可以視為直線的 效果,亦即若有其他考量時,上述的階梯函數可以用斜 坡函數(ramp function)取代,或是以其他嚴格遞增函數 或是遞增函數(嚴格遞減函數或是遞減函數)來取代,此類 修為熟知該項技藝者依據本發明的裝置與方法之揭露而 可以輕易推知者,改並不脫離本發明的精神與範疇之 外。 經濟部智慧財產局員工消費合作社印製 !-|---_----4裝—— (請先閱讀背面之注意事項再填寫本頁) 以上所述僅為本發明之較佳實施例而已,並非用以 限定本發明之申請專利範圍;凡其它未脫離本發明所揭 示之精神下所完成之等效改變或修飾,例如在本發明的 一較佳實施例中,用以處理字音的階梯函數,也可以利 用其他函數的多項式(或將其中的高次項刪除),只要能快 速的運算即可。甚至所處理的字音訊號也不限於處理兩 個相鄰的字音訊號,也可以一次處理兩個以上的字音訊 號。只要在合成語音發音時,可以利用本發明的函數或 其他適當函數加以平滑化之後再作銜接處理即可。故任 何對本發明的函數之之改變或修飾,以將前後字音銜接 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 476060 A7 __B7_ 五、發明說明() 之快速聲音合成之平滑處理裝置與方法,均應包含在下 述之申請專利範圍内。 (請先閱讀背面之注意事項再填寫本頁) 裝 訂---------總
P 經濟部智慧財產局員工消費合作社印製 14 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐)
Claims (1)
- 經濟部智慧財產局員工消費合作社印製 476060 Λ8 B8 C8 08 六、申請專利範圍 1 . 一種聲音合成的平滑處理裝置,係在讀出合成語音訊 號時,使所發出的合成語音中每個字音間之發音平滑 化,該聲音合成的平滑處理裝置至少包含·· 子音長度偵測裝置,係用於偵測出依序輸出的每個 合成語音訊號的子音發聲時間長度; 延遲裝置,係用於將每個合成語音訊號輸入該延遲 裝置而延遲一段特定時間之後,再行將所輸入的每個合 成語音訊號輸出該延遲裝置; 第一處理裝置,係兩於在合成語音訊號中的第一合 成語音訊號以及第二合成語音訊號被依序輸入到該第一 處理裝置時,相應於該第二合成語音訊號由起始點開始 的重疊時段内,該第一處理裝置的增益大小由零漸增至 一特定值,並且維持在該特定值,直到該第二合成語音 訊號結束之後才又回歸到零,該重疊時段的長度等於該 子音長度偵測裝置對連續的該第一合成語音訊號以及該 第二合成語音訊號中較慢輸入的該第二合成語音訊號偵 測之後所得到的後子音長度,該第一處理裝置的增益大 小由零漸增至該特定值時,其轉換函數為第一轉換函 數,該第一轉換函數為遞增函數; 第二處理裝置,係用於依據該子音長度偵測裝置所 偵測得的每個合成語音訊號的子音發聲時間長度,當合 成語音訊號中的該第一合成語音訊號以及該第二合成語 音訊號被依序輸入到該第二處理裝置時,該第一合成語 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) ------------W裝—— ·**· (請先閱讀背面之注意事項再填寫本頁) 訂·- .^- 476060 A8 B8 C8 D8 六、申請專利範圍 (請先閱讀背面之注意事項再填寫本頁) 音訊號由衰減起始點開始到第一合成語音訊號結束的該 重疊時段内,該第一處理裝置的增益大小由該特定值漸 漸減小到零,該重疊時段的長度等於該子音長度偵測裝 置偵測該第二合成語音訊號所得的該後子音長度,該第 二處理裝置的增益大小由該特定值漸減至零時,其所對 應的函數為第二轉換函數,該第二轉換函數為遞減函 數;以及 加成裝置,係用於將該第一處理裝置以及該第二處 理裝置的輸出訊號疊加,使得該重疊時段内的該第一合 成語音訊號與該重疊時段内的第二合成語音訊號相加, 藉以使得該第一合成語音訊號,及其後段中該重疊時段 内所疊加的該第一合成語音訊號與該第二合成語音訊 號,連同該重疊時段之後的該第二合成語音訊號結合之 後,使所發出的合成語音中之每個字音間之發音平滑 2. 如申請專利範圍第1項之聲音合成的平滑處理裝置, 其中上述之第一轉換函數為該遞增函數的一種之步階函 數(step function) ° 經濟部智慧財產局員工消費合作社印製 3. 如申請專利範圍第1項之聲音合成的平滑處理裝置, 其中上述之第一轉換函數為該遞增函數的一種之斜坡函 數(ramp function) 〇 4. 如申請專利範圍第1項之聲音合成的平滑處理裝置, 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 476060 A8 B8 C8 D8 t、申請專利範圍 其中上述之第二轉換函數為該遞減函數的一種之步階函 數(step function)。 5. 如申請專利範圍第1項之聲音合成的平滑處理裝置, 其中上述之第二轉換函數為該遞減函數的一種之斜坡函 數(ramp function) ° 6. —種聲音合成的平滑處理裝置,係在讀出合成語音訊 號時,使所發出的合成語音中每個字音間之發音平滑 化,該聲音合成的平滑處理裝置至少包含: 子音長度偵測裝置,係用於偵測出依序輸出的每個 合成語音訊號的子音發聲時間長度; 延遲裝置,係用於將每個合成語音訊號輸入該延遲 裝置而延遲一段特定時間之後,再行將所輸入的每個合 成語音訊號輸出該延遲裝置; 經濟部智慧財產局員工消費合作社印製 -----^---,0--------- (請先閱讀背面之注意事項再填寫本頁) 第一處理裝置,係用於在合成語音訊號中的第一合 成語音訊號以及第二合成語音訊號被依序輸入到該第一 處理裝置時,相應於該第二合成語音訊號由起始點開始 的重疊時段内,該第一處理裝置的增益大小由零漸增至 一特定值,並且維持在該特定值,直到該第二合成語音 訊5虎結束之後才又回知到零,该重豐時段的長度專於4亥 子音長度偵測裝置對連續的該第一合成語音訊號以及該 第二合成語音訊號中較慢輸入的該第二合成語音訊號偵 測之後所得到的後子音長度,該第一處理裝置的增益大 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 476060 A8 B8 C8 D8 t、申請專利範圍 (請先閱讀背面之注意事項再填寫本頁) 小由零漸增至該特定值時,其轉換函數為第一轉換函 數,該第一轉換函數為一種遞增的步階函數(step function); 第二處理裝置,係用於依據該子音長度偵測裝置所 偵測得的每個合成語音訊號的子音發聲時間長度,當合 成語音訊號中的該第一合成語音訊號以及該第二合成語 音訊號被依序輸入到該第二處理裝置時,該第一合成語 音訊號由衰減起始點開始到第一合成語音訊號結束的該 重疊時段内,該第二處理裝置的增益大小由該特定值漸 漸減小到零,該重疊時段的長度等於該子音長度偵測裝 置偵測該第二合成語音訊號所得的該後子音長度,該第 二處理裝置的增益大小由該特定值漸減至零時,其所對 應的函數為第二轉換函數,該第二轉換函數為一種遞減 的步階函數;以及 經濟部智慧財產局員工消費合作社印製 加成裝置,係用於將該第一處理裝置以及該第二處 理裝置的輸出訊號疊加,使得該重疊時段内的該第一合 成語音訊號與該重疊時段内的第二合成語音訊號相加, 藉以使得該第一合成語音訊號,及其後段中該重疊時段 内所疊加的該第一合成語音訊號與該第二合成語音訊 號,連同該重疊時段之後的該第二合成語音訊號結合之 後,使所發出的合成語音中之每個字音間之發音平滑 化。 7. —種聲音合成的平滑處理方法,係在讀出合成語音訊 號時,使所發出的合成語音中每個字音間之發音平滑 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 476060 A8 B8 C8 D8 t、申請專利範圍 化,該聲音合成的平滑處理方法至少包含: (請先閱讀背面之注意事項再填寫本頁) 偵測出依序輸出的每個合成語音訊號的子音發聲 時間長度,同時將每個合成語音訊號延遲一段特定時間 之後,再行輸出; ·. 以第一轉換函數乘以合成語音訊號中的第一合成 語音訊號以及第二合成語音訊號,其中該第一轉換函數 的轉換特性曲線相應於該第二合成語音訊號由起始點開 始的重疊時段内,其增益大小由零漸增至一特定值,並 且維持在該特定值,直到該第二合成語音訊號結束之後 才又回歸到零,該重疊時段的長度等於連續的該第一合 成語音訊號以及該第二合成語音訊號中較慢輸入的該第 二合成語音訊號的子音發聲時間長度,該第一轉換函數 為遞增函數; 以第二轉換函數乘以合成語音訊號中的第一合成 語音訊號以及第二合成語音訊號,其中該第二轉換函數 的轉換特性曲線相應於該第一合成語音訊號,於該第一 合成語音訊號由衰減起始點開始到第一合成語音訊號結 束的該重疊時段内,該第一處理裝置的增益大小由該特 定值漸漸減小到零,該重疊時段的長度等於該後子音長 度,該第二轉換函數為遞減函數;以及 經濟部智慧財產局員工消費合作社印製 將經過該第一函數處理的部分該第二合成語音訊 號與經過該第二函數處理的部分該第一合成語音訊號疊 加,使得該重疊時段内的該第一合成語音訊號與該重疊 時段内的第二合成語音訊號相加,藉以使得該第一合成 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 476060 A8 B8 C8 D8 t、申請專利範圍 (請先閱讀背面之注意事項再填寫本頁) 語音訊號,及其後段内該重疊時段中所疊加的經過該第 一函數處理的部分該第二合成語音訊號與經過該第二函 數處理的部分該第一合成語音訊號,連同該重疊時段之 後的該第二合成語音訊號結合之後,使所發出的合成語 音中之每個字音間之發音平滑化。 8. 如申請專利範圍第 7項之聲音合成的平滑處理方法, 其中上述之第一轉換函數為遞增之步階函數(step function) ° 9. 如申請專利範圍第7項之聲音合成的平滑處理方法, 其中上述之第一轉換函數為遞增之斜坡函數(「amp function) ° 1 0.如申請專利範圍第7項之聲音合成的平滑處理方法, 其中上述之第二轉換函數為遞減之步階函數(step function) 〇 1 1 .如申請專利範圍第7項之聲音合成的平滑處理裝置, 其中上述之第二轉換函數為遞減之斜坡函數(ramp function)。 經濟部智慧財產局員工消費合作社印製 1 2. —種聲音合成的平滑處理方法,係在讀出合成語音訊 號時,使所發出的合成語音中每個字音間之發音平滑 化,該聲音合成的平滑處理方法至少包含: 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 476060 A8 B8 C8 D8 t、申請專利範圍 (請先閱讀背面之注意事項再填寫本頁) 偵測出依序輸出的每個合成語音訊號的子音發聲 時間長度,同時將每個合成語音訊號延遲一段特定時間 之後,再行輸出; 以第一轉換函數乘以合成語音訊號中的第一合成 語音訊號以及第二合成語音訊號,其中該第一轉換函數 的轉換特性曲線相應於該第二合成語音訊號由起始點開 始的重疊時段内,其增益大小由零漸增至一特定值,並 且維持在該特定值,直到該第二合成語音訊號結束之後 才又回歸到零,該重疊時段的長度等於連續的該第一合 成語音訊號以及該第二合成語音訊號中較慢輸入的該第 二合成語音訊號的子音發聲時間長度,該第一轉換函數 為遞增的步階函數(step function); 以第二轉換函數乘以合成語音訊號中的第一合成 語音訊號以及第二合成語音訊號,其中該第二轉換函數 的轉換特性曲線相應於該第一合成語音訊號,於該第一 合成語音訊號由衰減起始點開始到第一合成語音訊號結 束的該重疊時段内,該第一處理裝置的增益大小由該特 定值漸漸減小到零,該重疊時段的長度等於該後子音長 度,該第二轉換函數為遞減的步階函數;以及 經濟部智慧財產局員工消費合作社印製 將經過該第一函數處理的部分該第二合成語音訊 號與經過該第二函數處理的部分該第一合成語音訊號疊 加,使得該重疊時段内的該第一合成語音訊號與該重疊 時段内的第二合成語音訊號相加,藉以使得該第一合成 語音訊號,及其後段内該重疊時段中所疊加的經過該第 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 476060 A8 B8 C8 D8 申請專利範圍 函之語 二段成 第時合 該疊的 過重出 經該發 與同所 號連使 訊,, 音號後。 語訊之化 成音合''f 合語結平 二成號音 第合訊發 該一音之 分第語間 部該成音 的分合字 理部二個 處的第每 數理該之 函處的中 一 數後音 1 I ______I I ^ · I I I I I 11 *^" (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW89110181A TW476060B (en) | 2000-05-25 | 2000-05-25 | Smoothening apparatus and method for quick synthesized voice |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW89110181A TW476060B (en) | 2000-05-25 | 2000-05-25 | Smoothening apparatus and method for quick synthesized voice |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| TW476060B true TW476060B (en) | 2002-02-11 |
Family
ID=21659858
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW89110181A TW476060B (en) | 2000-05-25 | 2000-05-25 | Smoothening apparatus and method for quick synthesized voice |
Country Status (1)
| Country | Link |
|---|---|
| TW (1) | TW476060B (zh) |
-
2000
- 2000-05-25 TW TW89110181A patent/TW476060B/zh not_active IP Right Cessation
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11443733B2 (en) | Contextual text-to-speech processing | |
| EP3387646B1 (en) | Text-to-speech processing system and method | |
| US8224645B2 (en) | Method and system for preselection of suitable units for concatenative speech | |
| US7565291B2 (en) | Synthesis-based pre-selection of suitable units for concatenative speech | |
| TW466470B (en) | Identification of unit overlap regions for concatenative speech synthesis system | |
| US20130041669A1 (en) | Speech output with confidence indication | |
| JP2001034283A (ja) | 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体 | |
| CA2145298A1 (en) | Method and apparatus for speech synthesis | |
| JPH08512150A (ja) | ニューラル・ネットワークを利用してテキストを可聴信号に変換する方法および装置 | |
| CN106710585A (zh) | 语音交互过程中的多音字播报方法及系统 | |
| Aida-Zade et al. | The main principles of text-to-speech synthesis system | |
| CN115273776A (zh) | 端到端歌声合成方法、计算机设备及存储介质 | |
| TW476060B (en) | Smoothening apparatus and method for quick synthesized voice | |
| JPH03273280A (ja) | 発声練習用音声合成方式 | |
| TW508564B (en) | Method and system for phonetic recognition | |
| JPH0962286A (ja) | 音声合成装置および音声合成方法 | |
| JP6631186B2 (ja) | 音声作成装置、方法、及びプログラム、音声データベース作成装置 | |
| TW470927B (en) | Device and method for smoothening synthesized voice speech | |
| KR0134707B1 (ko) | 다이폰 단위를 이용한 엘에스피(lsp)방식의 음성 합성 방법 | |
| JP3270668B2 (ja) | テキストからスピーチへの人工的ニューラルネットワークに基づく韻律の合成装置 | |
| Xie et al. | FireRedTTS: The Xiaohongshu Speech Synthesis System for Blizzard Challenge 2023. | |
| Dessai et al. | Development of Konkani TTS system using concatenative synthesis | |
| JPH04270394A (ja) | ポーズ長決定方式 | |
| JP2680643B2 (ja) | 規則合成装置の文字表示方法 | |
| JP2819904B2 (ja) | 連続音声認識装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| GD4A | Issue of patent certificate for granted invention patent | ||
| MM4A | Annulment or lapse of patent due to non-payment of fees |