CZ308878B6 - Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu a technický prostředek k provádění tohoto způsobu - Google Patents
Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu a technický prostředek k provádění tohoto způsobu Download PDFInfo
- Publication number
- CZ308878B6 CZ308878B6 CZ2019684A CZ2019684A CZ308878B6 CZ 308878 B6 CZ308878 B6 CZ 308878B6 CZ 2019684 A CZ2019684 A CZ 2019684A CZ 2019684 A CZ2019684 A CZ 2019684A CZ 308878 B6 CZ308878 B6 CZ 308878B6
- Authority
- CZ
- Czechia
- Prior art keywords
- speech
- processing
- recordings
- recording
- voice
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 104
- 238000012545 processing Methods 0.000 title claims abstract description 48
- 238000003672 processing method Methods 0.000 claims abstract description 26
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 24
- 238000001308 synthesis method Methods 0.000 claims abstract description 24
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 24
- 238000011156 evaluation Methods 0.000 claims abstract description 9
- 238000004321 preservation Methods 0.000 claims description 4
- 238000003908 quality control method Methods 0.000 claims description 3
- 210000001260 vocal cord Anatomy 0.000 description 5
- 238000001356 surgical procedure Methods 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000003238 esophagus Anatomy 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 206010044310 Tracheo-oesophageal fistula Diseases 0.000 description 1
- 208000005864 Tracheoesophageal Fistula Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 208000016274 isolated tracheo-esophageal fistula Diseases 0.000 description 1
- 206010023841 laryngeal neoplasm Diseases 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 210000003437 trachea Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
Při způsobu zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu se nahrávka automaticky zpracuje nejméně dvěma dílčími metodami zpracování. Výstup alespoň jedné dílčí metody zpracování obsahuje výstupní data a ohodnocení míry důvěry v tento výstup. Z těchto dat se automaticky vytvoří nejméně jeden datový balíček pro nejméně jednu metodu syntézy řeči. Je výhodné, pokud se zpracuje jen nahrávka mající kvalitu odpovídající alespoň jednomu předdefinovanému prahu kvality, nejlépe nastavitelnému. Ohodnocení měr důvěry dílčích metod zpracování lze použít pro stanovení celkové míry důvěry ve výstup jednotlivých metod syntézy řeči. Na základě celkové míry důvěry lze doporučit nejvhodnější metodu syntézy řeči z takto zakonzervovaného hlasu daného řečníka. Technický prostředek k provádění způsobu může obsahovat nejméně jedno zařízení k ukládání nahrávek řečových promluv a k jejich zpracování popsaným způsobem. Alternativně prostředek může obsahovat nejméně jedno zařízení pro přístup k nahrávkám řečových promluv a k jejich zpracování popsaným způsobem.
Description
Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu a technický prostředek k provádění tohoto způsobu
Oblast techniky
Vynález se týká způsobu automatické konzervace a rekonstrukce lidského hlasu s automatickým ohodnocením míry důvěry v kvalitu takto konzervovaného a rekonstruovaného hlasu.
Dosavadní stav techniky
V současné době se vývoj systémů TTS (Text To Speech - převod textu na mluvenou řeč) zabývá spíše vytvářením a používáním generických hlasů, tj. hlasů profesionálních řečníků, kteří nahrávají až desítky hodin v nahrávacím studiu a jejichž nahrávky jsou pak částečně automaticky a částečně manuálně zpracovány. Tím je vytvořen TTS systém s hlasem modelujícím hlas daného profesionálního řečníka. Stejný hlas je pak dostupný všem uživatelům tohoto TTS systému. Pro daný jazyk tak většinou existuje několik málo dostupných hlasů.
Dále je známý tzv. personalizovaný systém TTS (pTTS). Ten je odlišný v tom, že může pro každého uživatele vytvořit jedinečný hlas, který je podobný jeho vlastnímu hlasu. Vytváření hlasu pro uživatele, který není profesionálním řečníkem, je odlišné od standardního postupu. Neprofesionální uživatel není zpravidla schopen nahrát takové množství dat v takové kvalitě a v takovém prostředí jako profesionální řečník. Částečně manuální zpracování každého jednotlivého hlasu pak není pro velké množství uživatelů z praktického hlediska možné.
Hlasová konzervace je proces, při kterém je nahrán hlas uživatele, získané nahrávky jsou určitým způsobem zpracovány, a výstupem je hlasový syntetizér TTS, který je schopný převádět jakýkoliv text na řeč hlasem daného uživatele (tj. rekonstruuje daný hlas). Tímto způsobem je tedy vytvořen i pTTS. Využití TTS systému je například v různých elektronických zařízeních, GPS navigacích, čtečkách knih, nebo také v běžném životě pro uživatele, kteří ztratili schopnost komunikovat vlastním hlasem (např. v důsledku nemoci či chirurgického zákroku).
Pro systémy TTS existuje v současnosti několik základních metod syntézy řeči, tj. souborů metod zpracování nahraných vstupních dat, z jejichž výstupů je posléze produkována syntetická řeč. Různé metody syntézy řeči j sou různě citlivé na kvalitu a množství vstupních dat (nahrávek) a také produkují řeč různé kvality právě v závislosti na vstupních datech. Některé metody syntézy řeči dokonce mohou pro určitého uživatele selhat a s jejich použitím tak není možné produkovat řeč hlasem tohoto uživatele. Výběr vhodné metody syntézy řeči, která bude produkovat řeč nejvyšší možné kvality pro daného uživatele, není jednoduchý, neboť také záleží na subjektivním posouzení produkované řeči.
Systémy TTS jsou využitelné i pro pacienty, kteří natrvalo ztratili hlas, například v důsledku radikální chirurgické léčby vážných zhoubných nádorových onemocnění v oblasti hrtanu. Jde o pacienty, kteří museli podstoupit totální laryngektomii (dále LET), tj. odstranění celého hrtanu včetně hlasivek.
Možnosti hlasové komunikace jsou po tomto zákroku velmi omezené - v současné době se k náhradě hlasu standardně využívají tři postupy:
a) použití elektrolarynxu, pomocí něhož se rozvibruje hlasový trakt;
b) esofageální (jícnový) hlas, jehož principem je zadržování a vytěsňování zbytkového vzduchu z jícnu a jeho následné rozvibrovávání;
-1 CZ 308878 B6
c) tracheoesofageální fistula, která pomocí jednosměrného (chirurgicky implantovaného) ventilu umožňuje propojit průdušnici a jícen (spojení bylo přerušeno při operaci) a proudící vzduch tak může rozvibrovat záklopku ventilu a vytvářet hlas.
Žádný z těchto postupů ale není bezproblémový, ať už z pohledu pohodlí pacienta nebo kvality výsledného produkovaného hlasu. Některé postupy jsou pro pacienta obtížné si osvojit, jiné ho zase výrazně unavují, takže musí mluvit pomocí krátkých slovních spojení nebo s častými přestávkami. Zvláště v případě a) pak hlas zní velmi nepřirozeně, roboticky. Žádný z těchto postupů náhrady hlasu nezaručuje tvorbu hlasu podobného původnímu hlasu pacienta.
Jako významná pomůcka se pro pacienty po LET ukazuje řečová syntéza, konkrétně systémy TTS implementované na různých přenosných zařízeních (laptop, tablet, smartphone, apod.) využívající generický hlas.
V současnosti není znám způsob, který by umožnil uživateli jednoduše nahrát svůj hlas, plně automaticky zpracovat nahraná vstupní data a určit nej vhodnější metodu syntézy řeči pro daná vstupní data určitého uživatele.
Podstata vynálezu
Podstatou vynálezu je způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu. Způsob zahrnuje automatické ohodnocení míry důvěry D v kvalitu takto zakonzervovaného hlasu a v kvalitu výstupu pozdější rekonstrukce hlasu daného řečníka systémem pTTS. Míra důvěry D je určována v průběhu procesu automatické konzervace hlasu na základě výstupů jednotlivých metod zpracování MZi, které do procesu konzervace hlasu vstupují. Metody zpracování MZi zpracovávají vstupní data (nahrávky - jednotlivě nebo i soubor více nahrávek) a případně i výstupy ostatních metod zpracování a poskytují určitý výstup s výstupními daty a případně také dílčí míru důvěry Di v tento výstup. Zpracování nahrávky se provede nejméně dvěma dílčími metodami zpracování MZi. Nahrávkou se rozumí digitální zvukový záznam promluvy, přičemž tento záznam může kromě promluvy obsahovat také šum či ruch na pozadí nebo další vlivy akustického prostředí, ve kterém byla nahrávka pořízena. Promluvou se rozumí uživatelem vyřčený text libovolné délky, například slovo, věta, nebo odstavec.
Metodami zpracování MZi mohou být například:
Skupina metod pro kontrolu nahrávek:
• Metoda pro kontrolu požadované úrovně hlasitosti nahrávky - metoda libovolným známým algoritmem kontroluje, zda je úroveň hlasitosti signálu v nahrávce dostatečná pro další zpracování.
• Metoda pro kontrolu požadované délky počáteční/koncové pauzy v nahrávce - metoda libovolným známým algoritmem kontroluje, zdaje na začátku i na konci nahrávky dostatečně dlouhý úsek neobsahující řeč uživatele.
• Metoda pro kontrolu přítomnosti šumu v nahrávce - metoda libovolným známým algoritmem detekuje v nahrávce přítomnost šumu jakékoliv charakteristiky, případně tyto charakteristiky šumu identifikuje.
• Metoda pro detekci předem definovaných úseků v nahrávce - metoda libovolným známým algoritmem detekuje a identifikuje v nahrávce úseky, kde je o a) řeč uživatele,
- 2 CZ 308878 B6 o b) ticho (zahrnuje případný šum), o c) neřečové události (jako např. mlaskání, smích, zakašlání, apod.), o d) ostatní úseky nezapadající do žádné z kategorií a) až c).
• Metoda pro rozpoznávání řeči v nahrávce - metoda libovolným známým algoritmem rozpoznává řeč, která je zachycena v nahrávce a přepisuje ji do textové podoby, případně i včetně časování, tj. údajů o tom, v jakých časových úsecích se vyskytují které jednotky textové podoby (písmena, slova, věty, atd.).
• Metoda pro kontrolu kvality nahrávky - metoda využívá výstupů ostatních metod ze skupiny metod pro kontrolu nahrávky a vyhodnocuje, zda je daná nahrávka vhodná pro další zpracování (a bude tedy zpracována dalšími metodami zpracování) nebo nikoliv (a nebude tedy dále použita). Pro vyhodnocení použitelnosti se použije předdefinovaný práh kvality nahrávky. Práh kvality může mít nastavitelnou výši, dle kvality řečníka. Pokud je hlas řečníka již velmi slabý nebo jinak nekvalitní, lze práh kvality snížit, aby bylo dosaženo alespoň nějakého kladného výstupu, pokud není předpoklad, že by se kvalita nahrávky mohla opakováním zlepšit (zhoršující se zdravotní stav, blížící se operační zákrok, který vlastní mluvu řečníka zcela znemožní). S výhodou se použije metoda umožňující automatickou kontrolu kvality nahrávky, lze však uvažovat alespoň částečný manuální zásah školeného pracovníka. Kontrola kvality nahrávky uživatelem je sice možná, nepřinese však spolehlivý výsledek, neboť uživatel systému bude s největší pravděpodobností laik.
Je výhodné, pokud se kontrola kvality dané nahrávky provede v reálném čase před započetím nahrávání další nahrávky. To znamená, že je provedena již během nahrávání nebo těsně po něm. Případné opakování nahrávání tak může provedeno okamžitě, čímž se zvyšuje šance, že kvalita výsledku bude vyšší než u předchozího pokusu.
Skupina metod pro akustické předzpracování nahrávek:
• Metoda pro převzorkování nahrávky - metoda libovolným známým algoritmem změní vzorkovací frekvenci nahrávky na takovou, která je vhodná pro její další zpracování (pokud je to nutné).
• Metoda pro normalizaci hlasitosti nahrávky - metoda libovolným známým algoritmem normalizuje amplitudu signálu nahrávky (tj. určitým způsobem ji modifikuje) tak, aby byla vhodná pro další zpracování. Nahrávka se obvykle normalizuje tak, aby amplituda signálu v nahrávce využívala téměř celý rozsah a aby zároveň nedocházelo k překročení maximální hodnoty pro amplitudu. Případně se normalizuje celý soubor nahrávek najednou a zároveň se tak sjednocuje hlasitost v různých nahrávkách na podobnou úroveň.
• Metoda pro určení polarity nahrávky - metoda libovolným známým algoritmem určuje polaritu řečového signálu (pozitivní nebo negativní), která v nahrávce převažuje. Polarita řečového signálu je dána polohou vrcholů amplitudy v řečovém signálu - pokud jsou tyto vrcholy v lokálních maximech signálu, je polarita pozitivní, pokud jsou v lokálních minimech, je polarita negativní. Polarita může být určena i pro celý soubor nahrávek, např. podle převažující polarity v takovém souboru. Nahrávka, případně celý soubor nahrávek, je následně transformován tak, aby všechny nahrávky vykazovaly stejnou polaritu.
• Metoda pro detekci hlasivkových pulzů v nahrávce - metoda libovolným známým algoritmem detekuje v nahrávce hlasivkové pulzy (tzv. pitchmarky). Hlasivkový pulz je okamžik uzavření hlasivek během produkce řeči člověkem.
-3CZ 308878 B6 • Metoda pro detekci základní hlasivkové frekvence hlasu v nahrávce - metoda libovolným známým algoritmem určuje průběh základní hlasivkové frekvence (F0) řečového signálu v nahrávce.
• Metoda pro parametrizaci nahrávky - metoda parametrizuje akustický signál v nahrávce, tj. transformuje reprezentaci akustického signálu založenou na hodnotách amplitud jednotlivých zvukových vzorků na libovolnou jinou reprezentaci, která může být pro další zpracování nahrávky výhodnější (například transformace z časové oblasti do frekvenční oblasti).
• Metoda pro segmentaci nahrávky - metoda libovolným známým algoritmem detekuje časové hranice mezi jednotlivými fonetickými jednotkami v nahrávce. Obvykle se jako fonetická jednotka používá foném, tj. v takovém případě tato metoda rozdělí nahrávku na jednotlivé fonémy.
Některé z metod zpracování nemusí míru důvěry ve výstup poskytovat. Míra důvěry je reálné číslo v intervalu 0 až 1 (včetně okrajových bodů), kde hodnota 0 značí naprostou nedůvěru ve výstup metody zpracování a hodnota 1 značí naopak naprostou důvěru ve výstup metody zpracování. V závislosti na dané metodě zpracování je míra důvěry poskytnuta např. podle celkového množství slov obsažených v nahrávkách daného řečníka, podle hlasitosti či srozumitelnosti promluvy, podle úrovně hluku (šumu) na pozadí, nebo podle četnosti zastoupení významných fonetických jevů v promluvě.
Mezi metody syntézy řeči MSj, které jsou použitelné pro předkládaný vynález, spadají korpusově orientované metody syntézy řeči (metoda syntézy řeči s jedním zástupcem a metoda syntézy řeči dynamickým výběrem jednotek) a statistické parametrické metody syntézy řeči (metoda syntézy řeči s využitím HMM (skrytých Markových modelů)) a metoda syntézy řeči s využitím NN (neuronových sítí)). Tyto metody jsou odborníkům známé ze stavu techniky.
Na závěr je vytvořen datový balíček Bj pro každou uvažovanou metodu syntézy řeči MSj. Pro každou metodu syntézy řeči přitom může být definována jiná posloupnost dvou a více metod zpracování MZi, MZ2, ..., MZn, dle potřeby konkrétní metody syntézy řeči MSj. Je možné použít i jiné metody zpracování, zde neuvedené, které nějakým způsobem zpracovávají vstupní data a jejichž výstupem je nová informace použitelná buď při dalším zpracování vstupních dat, nebo přímo při rekonstrukci hlasu (syntéze řeči). Pro vytvoření datového balíčku Bj se tedy využije výstupů těch metod zpracování MZi, které jsou relevantní k metodě syntézy řeči MSj. Datovým balíčkem Bj pro daného uživatele se rozumí soubor dat, které budou použity v průběhu syntézy řeči ke generování syntetické řeči známou metodou MSj hlasem daného uživatele v systému pTTS.
Celková míra důvěry CDj v kvalitu konzervovaného a rekonstruovaného hlasu pro každou použitou metody syntézy řeči MSj (kde j = 1,2,... M a M je celkový počet uvažovaných metod syntézy řeči) je pak určena váženým průměrem takových výše zmíněných dílčích měr důvěry, které jsou výstupem metod zpracování MZi použitých pro jednotlivé konkrétní metody syntézy řeči MSj, tedy například vzorcem:
CDj = —Tj Σί^^^ Dt), kde • CDj je celková míra důvěry v kvalitu konzervovaného a rekonstruovaného hlasu metodou syntézy řeči MSy • Pj je celkový počet metod zpracování využitých v konzervaci hlasu a syntéze řeči metodou MSy,
-4CZ 308878 B6 • Wý je váha (částečné) míry důvěry D, ve výstup metody zpracování MZ, použité v konzervaci hlasu a syntéze řeči metodou syntézy řeči MSy, • 1) je (částečná) míra důvěry ve výstup metody zpracování MZ,.
• i je pořadové číslo metody zpracování v seznamu metod zpracování využitých v konzervaci hlasu a syntéze řeči danou metodou syntézy řeči MSj.
Porovnáním celkových měr důvěry CDj pro jednotlivé metody syntézy řeči MSj lze pak určit nejvhodnější metodu syntézy řeči MSopt pro určitého uživatele s danými vstupními daty, pro kterou je celková míra důvěry CDopt v nějakém ohledu optimální, a uživateli tak doporučit datový balíček Bopt pro využití v systému pTTS.
Ohodnocení měr důvěry Di dílčích metod zpracování MZi se může použít pro automatické stanovení celkové míry důvěry CDj ve výstup jednotlivých metod syntézy řeči MSj. Jinými slovy, již před provedením vlastní syntézy řeči z balíčku B v systému pTTS je možné určit, jak kvalitní a jak podobný původnímu hlasu bude hlas syntetický při použití uvažovaných metod syntézy řeči MSj. Díky tomu je možné automaticky doporučit nejvhodnější metodu pro syntézu řeči MSopt z takto zakonzervovaného hlasu daného řečníka.
Souvisejícím vynálezem je technický prostředek pro zpracování nahrávek řečových promluv. Podstatou technického prostředkuje, že obsahuje nejméně jedno zařízení uzpůsobené pro přístup k nahrávkám řečových promluv a k jejich zpracování shora popsaným způsobem, resp. že obsahuje nejméně jedno zařízení uzpůsobené pro ukládání nahrávek řečových promluv a k jejich zpracování shora popsaným způsobem.
Technickým prostředkem tak může být stolní počítač, který je uzpůsobený pro nahrávání řečových promluv a zároveň pro jejich zpracování. S ohledem na nutnost velkého výpočetního výkonu však toto provedení není typickým příkladem.
Další variantou technického prostředku je počítačová síť (zejména síť se vzdáleným přístupem, např. Internet), která obsahuje nejméně jedno komerčně dostupné běžné zařízení schopné nahrávat a/nebo ukládat řečové promluvy (PC, tablet, chytrý telefon, apod.) a nejméně jedno specializované zařízení (server) uzpůsobené pro zpracování nebo pro ukládání a zpracování nahrávek řečových promluv shora popsaným způsobem. S výhodou pak lze nahrávky řečových promluv odesílat najednou více uživateli z jejich osobních běžných zařízení do tohoto specializovaného zařízení, kde mohou být simultánně zpracovávány. Výhodou je možnost obsloužit větší množství uživatelů, aniž by byli zatížení zvýšenými náklady na pořízení specializovaného (výkonného) stolního počítače.
Obdobně lze uvažovat i variantu bez připojení k počítačové síti. Tedy specializované zařízení uzpůsobené ke zpracování nahrávek řečových promluv, přičemž nahrávky jsou dodány na datovém nosiči. Toto provedení je však v praxi méně výhodné kvůli problematickému dodání nahrávek.
Výhodou tohoto vynálezu oproti dosavadnímu stavuje:
• rychlý a plně automatický proces vytvoření personalizovaného hlasu pro pTTS systém;
• vhodná volba metody syntézy řeči pro konkrétního uživatele dle kvality a množství vstupních dat;
• ohodnocení míry důvěry v kvalitu zakonzervovaného hlasu a v předpokládanou kvalitu syntetizované řeči.
-5CZ 308878 B6
Objasnění výkresů
Příkladné provedení navrhovaného řešení je popsáno s odkazem na obr. 1, kde je znázorněno celkové schéma procesu konzervace hlasu.
Příklad uskutečnění vynálezu
Podle navrhovaného vynálezu je proveden způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu s automatickým ohodnocením míry důvěry. Pro pacienta po totální laryngektomii (LET) j e důležitý návrat k j eho původnímu hlasu, a to mu může být umožněno právě včasnou konzervací jeho vlastního hlasu a vytvořením pTTS systému. Konzervace hlasu probíhá ještě před LET (odpovídající kvalitě hlasu, kterou pacient před LET aktuálně disponuje). Rychlost a automatizace nahrávání a možnost pořizovat nahrávky odkudkoliv (nejlépe z domova) zde tedy nabývá na důležitosti, neboť časový úsek mezi diagnostikou onemocnění a vlastním chirurgickým zákrokem bývá velmi krátký. Protože hlas pacienta před LET může být v době nahrávání již částečně poškozený, je nutné nějakým způsobem stanovit a také kontrolovat kvalitu těchto nahrávek, odhadnout jejich vhodnost pro určité metody syntézy řeči a následně vybrat tu metodu syntézy řeči, která je pro daného pacienta s daným poškozením hlasu nejvhodnější. Tedy tu metodu, pro kterou se předpokládá, že bude za daných podmínek produkovat nej kvalitnější syntetizovanou řeč. To umožňuje právě automatické ohodnocení míry důvěry.
Technický prostředek pro zpracování nahrávek řečových promluv níže uvedeným způsobem je ve formě počítačové sítě a v danou chvíli obsahuje jedno zařízení uzpůsobené k ukládání nahrávek řečových promluv. Toto zařízení je ve formě stolního počítače připojeného přes zaheslované webové rozhraní v síti Internet. Technický prostředek dále obsahuje další zařízení, které je uzpůsobené ke zpracování nahrávek řečových promluv níže popsaným způsobem.
Při tomto příkladném způsobu zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu se každá nahrávka řečové promluvy právě konzervovaného hlasu daného řečníka v reálném čase (tedy samostatně) zpracuje pomocí výpočetní techniky.
Nahrávky řečových promluv jsou postupně řečníkem nahrávány dle pokynů z řečeného webového rozhraní a doručovány do zařízení k jejich zpracování v podstatě v reálném čase. Na počátku vlastního zpracování každé nahrávky se provede kontrola její kvality. Dále se zpracuje jen nahrávka mající kvalitu odpovídající alespoň jednomu předdefinovanému prahu kvality. Kontrola kvality dané nahrávky se provede v reálném čase před započetím nahrávání další nahrávky. Předdefinovaný práh kvality má nastavitelnou výši.
Zpracování se automaticky provede soustavou dílčích metod zpracování MZi k získání výstupů obsahujících výstupní data. Výstupní data jsou ve známém formátu, který je dále zpracovatelný známými metodami syntézy řeči MSj. Získaná výstupní data jsou tak využitelná pro tvorbu syntetické řeči jednou nebo více metodami syntézy řeči MSj. Výstup alespoň jedné dílčí metody zpracování MZi vedle výstupních dat dále obsahuje ohodnocení míry důvěry Di v tento výstup. Z výstupních dat dílčích metod zpracování MZi a měr důvěry Di se automaticky vytvoří datové balíčky Bj - pro každou z uvažovaných metod syntézy řeči MSj jeden.
Ohodnocení měr důvěry Di dílčích metod zpracování MZi se použije pro automatické stanovení celkové míry důvěry CDj ve výstup jednotlivých metod syntézy řeči MSj. Na základě celkových měr důvěry CDj se automaticky doporučí nej vhodnější metoda pro syntézu řeči MSopt z takto zakonzervovaného hlasu daného řečníka.
-6CZ 308878 B6
Průmyslová využitelnost
Navrhovaný postup lze využít při vytváření komerčních i nekomerčních pTTS systémů a umožnit tak komukoliv produkování řeči vlastním hlasem. Postup se uplatní v různých aplikacích nebo při 5 vytváření náhrady vlastního přirozeného hlasu. Navrhovaný způsob má velký potenciál pň masivnějším využívání pTTS systémů v budoucnu, a to pro svou jednoduchost pro koncového uživatele, rychlost vytvoření personalizovaného hlasu z nahraných dat a možnost ohodnocení předpokládané kvality produkované syntetizované řeči.
Claims (11)
- PATENTOVÉ NÁROKY1. Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu, kde alespoň jedna nahrávka řečové promluvy právě konzervovaného hlasu daného řečníka se samostatně nebo s dalšími nahrávkami právě konzervovaného hlasu daného řečníka zpracuje pomocí výpočetní techniky dílčí metodou zpracování (MZi), vyznačující se tím, že zpracování nahrávky se dále automaticky provede alespoň jednou další dílčí metodou zpracování (MZi) k získání výstupů obsahujících výstupní data, přičemž výstup alespoň jedné dílčí metody zpracování (MZi) dále obsahuje ohodnocení míry důvěry (Di) v tento výstup, přičemž z výstupních dat dílčích metod zpracování (MZi) a měr důvěry (Di) se automaticky vytvoří alespoň jeden datový balíček (B) pro alespoň jednu metodu syntézy řeči (MS).
- 2. Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu podle nároku 1, vyznačující se tím, že na počátku zpracování se provede kontrola kvality nahrávky, přičemž se dále zpracuje jen nahrávka mající kvalitu odpovídající alespoň jednomu předdefinovanému prahu kvality.
- 3. Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu podle nároku 2, vyznačující se tím, že kontrola kvality dané nahrávky se provede v reálném čase před započetím nahrávání další nahrávky.
- 4. Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu podle nároku 2 nebo 3, vyznačující se tím, že předdefinovaný práh kvality má nastavitelnou výši.
- 5. Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu podle některého z nároků 1 až 4, vyznačující se tím, že metodou zpracování (MZi) je metoda pro detekci předem definovaných úseků v nahrávce.
- 6. Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu podle některého z nároků 1 až 5, vyznačující se tím, že metodou zpracování (MZi) je metoda pro kontrolu přítomnosti šumu v nahrávce, která je uzpůsobená pro identifikaci charakteristik šumu.
- 7. Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu podle některého z předešlých nároků 1 až 6, vyznačující se tím, že ohodnocení měr důvěry (Di) dílčích metod zpracování (MZi) se použije pro stanovení celkové míry důvěry (CD) ve výstup jednotlivých metod syntézy řeči (MS).
- 8. Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu podle nároku 7, vyznačující se tím, že na základě celkové míry důvěry (CD) se doporučí nejvhodnější metoda syntézy řeči (MSopt) z takto zakonzervovaného hlasu daného řečníka.
- 9. Systém pro zpracování nahrávek řečových promluv způsobem podle některého z nároků 1 až 8, vyznačující se tím, že je realizován ve formě počítačové sítě, zejména sítě se vzdáleným přístupem, která obsahuje alespoň jedno zařízení pro nahrávání nebo pro nahrávání a ukládání nahrávek řečových promluv vybrané ze skupiny zahrnující alespoň osobní počítač, tablet, chytrý telefon, a alespoň jedno specializované zařízení, s výhodou server, pro zpracování nebo pro ukládání a zpracování nahrávek řečových promluv.
- 10. Systém pro zpracování nahrávek řečových promluv způsobem podle některého z nároků 1 až 8, vyznačující se tím, že je realizován ve formě specializovaného zařízení, s výhodou serveru, pro přístup k nahrávkám řečových promluv na datovém nosiči a k jejich zpracování.-8CZ 308878 B6
- 11. Systém pro zpracování nahrávek řečových promluv způsobem podle některého z nároků 1 až 8, vyznačující se tím, že je realizován ve formě stolního počítače pro nahrávání a zpracování nahrávek řečových promluv.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CZ2019684A CZ308878B6 (cs) | 2019-11-06 | 2019-11-06 | Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu a technický prostředek k provádění tohoto způsobu |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CZ2019684A CZ308878B6 (cs) | 2019-11-06 | 2019-11-06 | Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu a technický prostředek k provádění tohoto způsobu |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CZ2019684A3 CZ2019684A3 (cs) | 2021-05-19 |
| CZ308878B6 true CZ308878B6 (cs) | 2021-07-28 |
Family
ID=75900571
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CZ2019684A CZ308878B6 (cs) | 2019-11-06 | 2019-11-06 | Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu a technický prostředek k provádění tohoto způsobu |
Country Status (1)
| Country | Link |
|---|---|
| CZ (1) | CZ308878B6 (cs) |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CA2197734A1 (en) * | 1996-04-26 | 1997-10-27 | International Business Machines Corporation | Voice processing system |
| US20060173563A1 (en) * | 2004-06-29 | 2006-08-03 | Gmb Tech (Holland) Bv | Sound recording communication system and method |
| CN109005480A (zh) * | 2018-07-19 | 2018-12-14 | Oppo广东移动通信有限公司 | 信息处理方法及相关产品 |
-
2019
- 2019-11-06 CZ CZ2019684A patent/CZ308878B6/cs unknown
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CA2197734A1 (en) * | 1996-04-26 | 1997-10-27 | International Business Machines Corporation | Voice processing system |
| US20060173563A1 (en) * | 2004-06-29 | 2006-08-03 | Gmb Tech (Holland) Bv | Sound recording communication system and method |
| CN109005480A (zh) * | 2018-07-19 | 2018-12-14 | Oppo广东移动通信有限公司 | 信息处理方法及相关产品 |
Also Published As
| Publication number | Publication date |
|---|---|
| CZ2019684A3 (cs) | 2021-05-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7681669B2 (ja) | 2レベル音声韻律転写 | |
| Lea et al. | Sep-28k: A dataset for stuttering event detection from podcasts with people who stutter | |
| CN102124515B (zh) | 基于语音分析的说话者表征 | |
| CN114242033B (zh) | 语音合成方法、装置、设备、存储介质及程序产品 | |
| Székely et al. | Breathing and speech planning in spontaneous speech synthesis | |
| CN104765996B (zh) | 声纹密码认证方法及系统 | |
| WO2017067246A1 (zh) | 声学模型的生成方法和装置及语音合成方法和装置 | |
| Simon | Acquiring a new second language contrast: An analysis of the English laryngeal system of native speakers of Dutch | |
| CN113496696A (zh) | 一种基于语音识别的言语功能自动评估系统和方法 | |
| Goldrick et al. | Automatic analysis of slips of the tongue: Insights into the cognitive architecture of speech production | |
| Hasrul et al. | Human affective (emotion) behaviour analysis using speech signals: a review | |
| Mann et al. | Universal principles underlying segmental structures in parrot song and human speech | |
| Babel et al. | Asymmetries in perceptual adjustments to non-canonical pronunciations | |
| CN112885326B (zh) | 个性化语音合成模型创建、语音合成和测试方法及装置 | |
| CN119559933A (zh) | 一种语音克隆方法、语音克隆系统、存储介质及程序产品 | |
| CZ308878B6 (cs) | Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu a technický prostředek k provádění tohoto způsobu | |
| CZ35039U1 (cs) | Technický prostředek pro zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu | |
| JP2025542401A (ja) | 脳の健康状態を評価するためのシステムおよび方法 | |
| Ferris | Techniques and challenges in speech synthesis | |
| Panfili | Cross-linguistic acoustic characteristics of phonation: A machine learning approach | |
| CN116524896A (zh) | 一种基于发音生理建模的发音反演方法及系统 | |
| Jongmans et al. | Acoustic analysis of the voiced-voiceless distinction in dutch tracheoesophageal speech | |
| Nunes | Whispered speech segmentation based on deep learning | |
| Iliev | Emotion Recognition Using Glottal and Prosodic Features | |
| de Oliveira | Artificial voicing of whispered speech |