CZ308878B6

CZ308878B6 - Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu a technický prostředek k provádění tohoto způsobu

Info

Publication number: CZ308878B6
Application number: CZ2019684A
Authority: CZ
Inventors: Jindřich Matoušek; Matoušek Jindřich doc. Ing., Ph.D.; Daniel Tihelka; Tihelka Daniel Ing., Ph.D.; Martin Grůber; Grůber Martin Ing., Ph.D.; Jakub Vít; Jakub Ing. Vít; Markéta Jůzová; Markéta Ing. Jůzová; Antonín Koláček; Kamil Matoušek; Matoušek Kamil Ing., Ph.D.; Vladimír Mařík; Vladimír Ing. Mařík; Luděk Müller; Müller Luděk prof. Ing., Ph.D.; Zbyněk Tychtl; Tychtl Zbyněk Ing., Ph.D; Jan Betka
Original assignee: Západočeská Univerzita V Plzni; Certicon A.S.; Speechtech, S.R.O.; Univerzita Karlova
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2021-07-28
Also published as: CZ2019684A3

Abstract

Při způsobu zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu se nahrávka automaticky zpracuje nejméně dvěma dílčími metodami zpracování. Výstup alespoň jedné dílčí metody zpracování obsahuje výstupní data a ohodnocení míry důvěry v tento výstup. Z těchto dat se automaticky vytvoří nejméně jeden datový balíček pro nejméně jednu metodu syntézy řeči. Je výhodné, pokud se zpracuje jen nahrávka mající kvalitu odpovídající alespoň jednomu předdefinovanému prahu kvality, nejlépe nastavitelnému. Ohodnocení měr důvěry dílčích metod zpracování lze použít pro stanovení celkové míry důvěry ve výstup jednotlivých metod syntézy řeči. Na základě celkové míry důvěry lze doporučit nejvhodnější metodu syntézy řeči z takto zakonzervovaného hlasu daného řečníka. Technický prostředek k provádění způsobu může obsahovat nejméně jedno zařízení k ukládání nahrávek řečových promluv a k jejich zpracování popsaným způsobem. Alternativně prostředek může obsahovat nejméně jedno zařízení pro přístup k nahrávkám řečových promluv a k jejich zpracování popsaným způsobem.

Description

Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu a technický prostředek k provádění tohoto způsobu

Oblast techniky

Vynález se týká způsobu automatické konzervace a rekonstrukce lidského hlasu s automatickým ohodnocením míry důvěry v kvalitu takto konzervovaného a rekonstruovaného hlasu.

Dosavadní stav techniky

V současné době se vývoj systémů TTS (Text To Speech - převod textu na mluvenou řeč) zabývá spíše vytvářením a používáním generických hlasů, tj. hlasů profesionálních řečníků, kteří nahrávají až desítky hodin v nahrávacím studiu a jejichž nahrávky jsou pak částečně automaticky a částečně manuálně zpracovány. Tím je vytvořen TTS systém s hlasem modelujícím hlas daného profesionálního řečníka. Stejný hlas je pak dostupný všem uživatelům tohoto TTS systému. Pro daný jazyk tak většinou existuje několik málo dostupných hlasů.

Dále je známý tzv. personalizovaný systém TTS (pTTS). Ten je odlišný v tom, že může pro každého uživatele vytvořit jedinečný hlas, který je podobný jeho vlastnímu hlasu. Vytváření hlasu pro uživatele, který není profesionálním řečníkem, je odlišné od standardního postupu. Neprofesionální uživatel není zpravidla schopen nahrát takové množství dat v takové kvalitě a v takovém prostředí jako profesionální řečník. Částečně manuální zpracování každého jednotlivého hlasu pak není pro velké množství uživatelů z praktického hlediska možné.

Hlasová konzervace je proces, při kterém je nahrán hlas uživatele, získané nahrávky jsou určitým způsobem zpracovány, a výstupem je hlasový syntetizér TTS, který je schopný převádět jakýkoliv text na řeč hlasem daného uživatele (tj. rekonstruuje daný hlas). Tímto způsobem je tedy vytvořen i pTTS. Využití TTS systému je například v různých elektronických zařízeních, GPS navigacích, čtečkách knih, nebo také v běžném životě pro uživatele, kteří ztratili schopnost komunikovat vlastním hlasem (např. v důsledku nemoci či chirurgického zákroku).

Pro systémy TTS existuje v současnosti několik základních metod syntézy řeči, tj. souborů metod zpracování nahraných vstupních dat, z jejichž výstupů je posléze produkována syntetická řeč. Různé metody syntézy řeči j sou různě citlivé na kvalitu a množství vstupních dat (nahrávek) a také produkují řeč různé kvality právě v závislosti na vstupních datech. Některé metody syntézy řeči dokonce mohou pro určitého uživatele selhat a s jejich použitím tak není možné produkovat řeč hlasem tohoto uživatele. Výběr vhodné metody syntézy řeči, která bude produkovat řeč nejvyšší možné kvality pro daného uživatele, není jednoduchý, neboť také záleží na subjektivním posouzení produkované řeči.

Systémy TTS jsou využitelné i pro pacienty, kteří natrvalo ztratili hlas, například v důsledku radikální chirurgické léčby vážných zhoubných nádorových onemocnění v oblasti hrtanu. Jde o pacienty, kteří museli podstoupit totální laryngektomii (dále LET), tj. odstranění celého hrtanu včetně hlasivek.

Možnosti hlasové komunikace jsou po tomto zákroku velmi omezené - v současné době se k náhradě hlasu standardně využívají tři postupy:

a) použití elektrolarynxu, pomocí něhož se rozvibruje hlasový trakt;

b) esofageální (jícnový) hlas, jehož principem je zadržování a vytěsňování zbytkového vzduchu z jícnu a jeho následné rozvibrovávání;

-1 CZ 308878 B6

c) tracheoesofageální fistula, která pomocí jednosměrného (chirurgicky implantovaného) ventilu umožňuje propojit průdušnici a jícen (spojení bylo přerušeno při operaci) a proudící vzduch tak může rozvibrovat záklopku ventilu a vytvářet hlas.

Žádný z těchto postupů ale není bezproblémový, ať už z pohledu pohodlí pacienta nebo kvality výsledného produkovaného hlasu. Některé postupy jsou pro pacienta obtížné si osvojit, jiné ho zase výrazně unavují, takže musí mluvit pomocí krátkých slovních spojení nebo s častými přestávkami. Zvláště v případě a) pak hlas zní velmi nepřirozeně, roboticky. Žádný z těchto postupů náhrady hlasu nezaručuje tvorbu hlasu podobného původnímu hlasu pacienta.

Jako významná pomůcka se pro pacienty po LET ukazuje řečová syntéza, konkrétně systémy TTS implementované na různých přenosných zařízeních (laptop, tablet, smartphone, apod.) využívající generický hlas.

V současnosti není znám způsob, který by umožnil uživateli jednoduše nahrát svůj hlas, plně automaticky zpracovat nahraná vstupní data a určit nej vhodnější metodu syntézy řeči pro daná vstupní data určitého uživatele.

Podstata vynálezu

Podstatou vynálezu je způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu. Způsob zahrnuje automatické ohodnocení míry důvěry D v kvalitu takto zakonzervovaného hlasu a v kvalitu výstupu pozdější rekonstrukce hlasu daného řečníka systémem pTTS. Míra důvěry D je určována v průběhu procesu automatické konzervace hlasu na základě výstupů jednotlivých metod zpracování MZi, které do procesu konzervace hlasu vstupují. Metody zpracování MZi zpracovávají vstupní data (nahrávky - jednotlivě nebo i soubor více nahrávek) a případně i výstupy ostatních metod zpracování a poskytují určitý výstup s výstupními daty a případně také dílčí míru důvěry Di v tento výstup. Zpracování nahrávky se provede nejméně dvěma dílčími metodami zpracování MZi. Nahrávkou se rozumí digitální zvukový záznam promluvy, přičemž tento záznam může kromě promluvy obsahovat také šum či ruch na pozadí nebo další vlivy akustického prostředí, ve kterém byla nahrávka pořízena. Promluvou se rozumí uživatelem vyřčený text libovolné délky, například slovo, věta, nebo odstavec.

Metodami zpracování MZi mohou být například:

Skupina metod pro kontrolu nahrávek:

• Metoda pro kontrolu požadované úrovně hlasitosti nahrávky - metoda libovolným známým algoritmem kontroluje, zda je úroveň hlasitosti signálu v nahrávce dostatečná pro další zpracování.

• Metoda pro kontrolu požadované délky počáteční/koncové pauzy v nahrávce - metoda libovolným známým algoritmem kontroluje, zdaje na začátku i na konci nahrávky dostatečně dlouhý úsek neobsahující řeč uživatele.

• Metoda pro kontrolu přítomnosti šumu v nahrávce - metoda libovolným známým algoritmem detekuje v nahrávce přítomnost šumu jakékoliv charakteristiky, případně tyto charakteristiky šumu identifikuje.

• Metoda pro detekci předem definovaných úseků v nahrávce - metoda libovolným známým algoritmem detekuje a identifikuje v nahrávce úseky, kde je o a) řeč uživatele,

- 2 CZ 308878 B6 o b) ticho (zahrnuje případný šum), o c) neřečové události (jako např. mlaskání, smích, zakašlání, apod.), o d) ostatní úseky nezapadající do žádné z kategorií a) až c).

• Metoda pro rozpoznávání řeči v nahrávce - metoda libovolným známým algoritmem rozpoznává řeč, která je zachycena v nahrávce a přepisuje ji do textové podoby, případně i včetně časování, tj. údajů o tom, v jakých časových úsecích se vyskytují které jednotky textové podoby (písmena, slova, věty, atd.).

• Metoda pro kontrolu kvality nahrávky - metoda využívá výstupů ostatních metod ze skupiny metod pro kontrolu nahrávky a vyhodnocuje, zda je daná nahrávka vhodná pro další zpracování (a bude tedy zpracována dalšími metodami zpracování) nebo nikoliv (a nebude tedy dále použita). Pro vyhodnocení použitelnosti se použije předdefinovaný práh kvality nahrávky. Práh kvality může mít nastavitelnou výši, dle kvality řečníka. Pokud je hlas řečníka již velmi slabý nebo jinak nekvalitní, lze práh kvality snížit, aby bylo dosaženo alespoň nějakého kladného výstupu, pokud není předpoklad, že by se kvalita nahrávky mohla opakováním zlepšit (zhoršující se zdravotní stav, blížící se operační zákrok, který vlastní mluvu řečníka zcela znemožní). S výhodou se použije metoda umožňující automatickou kontrolu kvality nahrávky, lze však uvažovat alespoň částečný manuální zásah školeného pracovníka. Kontrola kvality nahrávky uživatelem je sice možná, nepřinese však spolehlivý výsledek, neboť uživatel systému bude s největší pravděpodobností laik.

Je výhodné, pokud se kontrola kvality dané nahrávky provede v reálném čase před započetím nahrávání další nahrávky. To znamená, že je provedena již během nahrávání nebo těsně po něm. Případné opakování nahrávání tak může provedeno okamžitě, čímž se zvyšuje šance, že kvalita výsledku bude vyšší než u předchozího pokusu.

Skupina metod pro akustické předzpracování nahrávek:

• Metoda pro převzorkování nahrávky - metoda libovolným známým algoritmem změní vzorkovací frekvenci nahrávky na takovou, která je vhodná pro její další zpracování (pokud je to nutné).

• Metoda pro normalizaci hlasitosti nahrávky - metoda libovolným známým algoritmem normalizuje amplitudu signálu nahrávky (tj. určitým způsobem ji modifikuje) tak, aby byla vhodná pro další zpracování. Nahrávka se obvykle normalizuje tak, aby amplituda signálu v nahrávce využívala téměř celý rozsah a aby zároveň nedocházelo k překročení maximální hodnoty pro amplitudu. Případně se normalizuje celý soubor nahrávek najednou a zároveň se tak sjednocuje hlasitost v různých nahrávkách na podobnou úroveň.

• Metoda pro určení polarity nahrávky - metoda libovolným známým algoritmem určuje polaritu řečového signálu (pozitivní nebo negativní), která v nahrávce převažuje. Polarita řečového signálu je dána polohou vrcholů amplitudy v řečovém signálu - pokud jsou tyto vrcholy v lokálních maximech signálu, je polarita pozitivní, pokud jsou v lokálních minimech, je polarita negativní. Polarita může být určena i pro celý soubor nahrávek, např. podle převažující polarity v takovém souboru. Nahrávka, případně celý soubor nahrávek, je následně transformován tak, aby všechny nahrávky vykazovaly stejnou polaritu.

• Metoda pro detekci hlasivkových pulzů v nahrávce - metoda libovolným známým algoritmem detekuje v nahrávce hlasivkové pulzy (tzv. pitchmarky). Hlasivkový pulz je okamžik uzavření hlasivek během produkce řeči člověkem.

-3CZ 308878 B6 • Metoda pro detekci základní hlasivkové frekvence hlasu v nahrávce - metoda libovolným známým algoritmem určuje průběh základní hlasivkové frekvence (F0) řečového signálu v nahrávce.

• Metoda pro parametrizaci nahrávky - metoda parametrizuje akustický signál v nahrávce, tj. transformuje reprezentaci akustického signálu založenou na hodnotách amplitud jednotlivých zvukových vzorků na libovolnou jinou reprezentaci, která může být pro další zpracování nahrávky výhodnější (například transformace z časové oblasti do frekvenční oblasti).

• Metoda pro segmentaci nahrávky - metoda libovolným známým algoritmem detekuje časové hranice mezi jednotlivými fonetickými jednotkami v nahrávce. Obvykle se jako fonetická jednotka používá foném, tj. v takovém případě tato metoda rozdělí nahrávku na jednotlivé fonémy.

Některé z metod zpracování nemusí míru důvěry ve výstup poskytovat. Míra důvěry je reálné číslo v intervalu 0 až 1 (včetně okrajových bodů), kde hodnota 0 značí naprostou nedůvěru ve výstup metody zpracování a hodnota 1 značí naopak naprostou důvěru ve výstup metody zpracování. V závislosti na dané metodě zpracování je míra důvěry poskytnuta např. podle celkového množství slov obsažených v nahrávkách daného řečníka, podle hlasitosti či srozumitelnosti promluvy, podle úrovně hluku (šumu) na pozadí, nebo podle četnosti zastoupení významných fonetických jevů v promluvě.

Mezi metody syntézy řeči MSj, které jsou použitelné pro předkládaný vynález, spadají korpusově orientované metody syntézy řeči (metoda syntézy řeči s jedním zástupcem a metoda syntézy řeči dynamickým výběrem jednotek) a statistické parametrické metody syntézy řeči (metoda syntézy řeči s využitím HMM (skrytých Markových modelů)) a metoda syntézy řeči s využitím NN (neuronových sítí)). Tyto metody jsou odborníkům známé ze stavu techniky.

Na závěr je vytvořen datový balíček Bj pro každou uvažovanou metodu syntézy řeči MSj. Pro každou metodu syntézy řeči přitom může být definována jiná posloupnost dvou a více metod zpracování MZi, MZ2, ..., MZ_n, dle potřeby konkrétní metody syntézy řeči MSj. Je možné použít i jiné metody zpracování, zde neuvedené, které nějakým způsobem zpracovávají vstupní data a jejichž výstupem je nová informace použitelná buď při dalším zpracování vstupních dat, nebo přímo při rekonstrukci hlasu (syntéze řeči). Pro vytvoření datového balíčku Bj se tedy využije výstupů těch metod zpracování MZi, které jsou relevantní k metodě syntézy řeči MSj. Datovým balíčkem Bj pro daného uživatele se rozumí soubor dat, které budou použity v průběhu syntézy řeči ke generování syntetické řeči známou metodou MSj hlasem daného uživatele v systému pTTS.

Celková míra důvěry CDj v kvalitu konzervovaného a rekonstruovaného hlasu pro každou použitou metody syntézy řeči MSj (kde j = 1,2,... M a M je celkový počet uvažovaných metod syntézy řeči) je pak určena váženým průměrem takových výše zmíněných dílčích měr důvěry, které jsou výstupem metod zpracování MZi použitých pro jednotlivé konkrétní metody syntézy řeči MSj, tedy například vzorcem:

CDj = —Tj Σί^^^ Dt), kde • CDj je celková míra důvěry v kvalitu konzervovaného a rekonstruovaného hlasu metodou syntézy řeči MSy • Pj je celkový počet metod zpracování využitých v konzervaci hlasu a syntéze řeči metodou MSy,

-4CZ 308878 B6 • Wý je váha (částečné) míry důvěry D, ve výstup metody zpracování MZ, použité v konzervaci hlasu a syntéze řeči metodou syntézy řeči MSy, • 1) je (částečná) míra důvěry ve výstup metody zpracování MZ,.

• i je pořadové číslo metody zpracování v seznamu metod zpracování využitých v konzervaci hlasu a syntéze řeči danou metodou syntézy řeči MSj.

Porovnáním celkových měr důvěry CDj pro jednotlivé metody syntézy řeči MSj lze pak určit nejvhodnější metodu syntézy řeči MS_opt pro určitého uživatele s danými vstupními daty, pro kterou je celková míra důvěry CD_opt v nějakém ohledu optimální, a uživateli tak doporučit datový balíček B_opt pro využití v systému pTTS.

Ohodnocení měr důvěry Di dílčích metod zpracování MZi se může použít pro automatické stanovení celkové míry důvěry CDj ve výstup jednotlivých metod syntézy řeči MSj. Jinými slovy, již před provedením vlastní syntézy řeči z balíčku B v systému pTTS je možné určit, jak kvalitní a jak podobný původnímu hlasu bude hlas syntetický při použití uvažovaných metod syntézy řeči MSj. Díky tomu je možné automaticky doporučit nejvhodnější metodu pro syntézu řeči MS_opt z takto zakonzervovaného hlasu daného řečníka.

Souvisejícím vynálezem je technický prostředek pro zpracování nahrávek řečových promluv. Podstatou technického prostředkuje, že obsahuje nejméně jedno zařízení uzpůsobené pro přístup k nahrávkám řečových promluv a k jejich zpracování shora popsaným způsobem, resp. že obsahuje nejméně jedno zařízení uzpůsobené pro ukládání nahrávek řečových promluv a k jejich zpracování shora popsaným způsobem.

Technickým prostředkem tak může být stolní počítač, který je uzpůsobený pro nahrávání řečových promluv a zároveň pro jejich zpracování. S ohledem na nutnost velkého výpočetního výkonu však toto provedení není typickým příkladem.

Další variantou technického prostředku je počítačová síť (zejména síť se vzdáleným přístupem, např. Internet), která obsahuje nejméně jedno komerčně dostupné běžné zařízení schopné nahrávat a/nebo ukládat řečové promluvy (PC, tablet, chytrý telefon, apod.) a nejméně jedno specializované zařízení (server) uzpůsobené pro zpracování nebo pro ukládání a zpracování nahrávek řečových promluv shora popsaným způsobem. S výhodou pak lze nahrávky řečových promluv odesílat najednou více uživateli z jejich osobních běžných zařízení do tohoto specializovaného zařízení, kde mohou být simultánně zpracovávány. Výhodou je možnost obsloužit větší množství uživatelů, aniž by byli zatížení zvýšenými náklady na pořízení specializovaného (výkonného) stolního počítače.

Obdobně lze uvažovat i variantu bez připojení k počítačové síti. Tedy specializované zařízení uzpůsobené ke zpracování nahrávek řečových promluv, přičemž nahrávky jsou dodány na datovém nosiči. Toto provedení je však v praxi méně výhodné kvůli problematickému dodání nahrávek.

Výhodou tohoto vynálezu oproti dosavadnímu stavuje:

• rychlý a plně automatický proces vytvoření personalizovaného hlasu pro pTTS systém;

• vhodná volba metody syntézy řeči pro konkrétního uživatele dle kvality a množství vstupních dat;

• ohodnocení míry důvěry v kvalitu zakonzervovaného hlasu a v předpokládanou kvalitu syntetizované řeči.

-5CZ 308878 B6

Objasnění výkresů

Příkladné provedení navrhovaného řešení je popsáno s odkazem na obr. 1, kde je znázorněno celkové schéma procesu konzervace hlasu.

Příklad uskutečnění vynálezu

Podle navrhovaného vynálezu je proveden způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu s automatickým ohodnocením míry důvěry. Pro pacienta po totální laryngektomii (LET) j e důležitý návrat k j eho původnímu hlasu, a to mu může být umožněno právě včasnou konzervací jeho vlastního hlasu a vytvořením pTTS systému. Konzervace hlasu probíhá ještě před LET (odpovídající kvalitě hlasu, kterou pacient před LET aktuálně disponuje). Rychlost a automatizace nahrávání a možnost pořizovat nahrávky odkudkoliv (nejlépe z domova) zde tedy nabývá na důležitosti, neboť časový úsek mezi diagnostikou onemocnění a vlastním chirurgickým zákrokem bývá velmi krátký. Protože hlas pacienta před LET může být v době nahrávání již částečně poškozený, je nutné nějakým způsobem stanovit a také kontrolovat kvalitu těchto nahrávek, odhadnout jejich vhodnost pro určité metody syntézy řeči a následně vybrat tu metodu syntézy řeči, která je pro daného pacienta s daným poškozením hlasu nejvhodnější. Tedy tu metodu, pro kterou se předpokládá, že bude za daných podmínek produkovat nej kvalitnější syntetizovanou řeč. To umožňuje právě automatické ohodnocení míry důvěry.

Technický prostředek pro zpracování nahrávek řečových promluv níže uvedeným způsobem je ve formě počítačové sítě a v danou chvíli obsahuje jedno zařízení uzpůsobené k ukládání nahrávek řečových promluv. Toto zařízení je ve formě stolního počítače připojeného přes zaheslované webové rozhraní v síti Internet. Technický prostředek dále obsahuje další zařízení, které je uzpůsobené ke zpracování nahrávek řečových promluv níže popsaným způsobem.

Při tomto příkladném způsobu zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu se každá nahrávka řečové promluvy právě konzervovaného hlasu daného řečníka v reálném čase (tedy samostatně) zpracuje pomocí výpočetní techniky.

Nahrávky řečových promluv jsou postupně řečníkem nahrávány dle pokynů z řečeného webového rozhraní a doručovány do zařízení k jejich zpracování v podstatě v reálném čase. Na počátku vlastního zpracování každé nahrávky se provede kontrola její kvality. Dále se zpracuje jen nahrávka mající kvalitu odpovídající alespoň jednomu předdefinovanému prahu kvality. Kontrola kvality dané nahrávky se provede v reálném čase před započetím nahrávání další nahrávky. Předdefinovaný práh kvality má nastavitelnou výši.

Zpracování se automaticky provede soustavou dílčích metod zpracování MZi k získání výstupů obsahujících výstupní data. Výstupní data jsou ve známém formátu, který je dále zpracovatelný známými metodami syntézy řeči MSj. Získaná výstupní data jsou tak využitelná pro tvorbu syntetické řeči jednou nebo více metodami syntézy řeči MSj. Výstup alespoň jedné dílčí metody zpracování MZi vedle výstupních dat dále obsahuje ohodnocení míry důvěry Di v tento výstup. Z výstupních dat dílčích metod zpracování MZi a měr důvěry Di se automaticky vytvoří datové balíčky Bj - pro každou z uvažovaných metod syntézy řeči MSj jeden.

Ohodnocení měr důvěry Di dílčích metod zpracování MZi se použije pro automatické stanovení celkové míry důvěry CDj ve výstup jednotlivých metod syntézy řeči MSj. Na základě celkových měr důvěry CDj se automaticky doporučí nej vhodnější metoda pro syntézu řeči MS_opt z takto zakonzervovaného hlasu daného řečníka.

-6CZ 308878 B6

Průmyslová využitelnost

Navrhovaný postup lze využít při vytváření komerčních i nekomerčních pTTS systémů a umožnit tak komukoliv produkování řeči vlastním hlasem. Postup se uplatní v různých aplikacích nebo při 5 vytváření náhrady vlastního přirozeného hlasu. Navrhovaný způsob má velký potenciál pň masivnějším využívání pTTS systémů v budoucnu, a to pro svou jednoduchost pro koncového uživatele, rychlost vytvoření personalizovaného hlasu z nahraných dat a možnost ohodnocení předpokládané kvality produkované syntetizované řeči.

Claims

PATENTOVÉ NÁROKY

1. Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu, kde alespoň jedna nahrávka řečové promluvy právě konzervovaného hlasu daného řečníka se samostatně nebo s dalšími nahrávkami právě konzervovaného hlasu daného řečníka zpracuje pomocí výpočetní techniky dílčí metodou zpracování (MZi), vyznačující se tím, že zpracování nahrávky se dále automaticky provede alespoň jednou další dílčí metodou zpracování (MZi) k získání výstupů obsahujících výstupní data, přičemž výstup alespoň jedné dílčí metody zpracování (MZi) dále obsahuje ohodnocení míry důvěry (Di) v tento výstup, přičemž z výstupních dat dílčích metod zpracování (MZi) a měr důvěry (Di) se automaticky vytvoří alespoň jeden datový balíček (B) pro alespoň jednu metodu syntézy řeči (MS).
2. Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu podle nároku 1, vyznačující se tím, že na počátku zpracování se provede kontrola kvality nahrávky, přičemž se dále zpracuje jen nahrávka mající kvalitu odpovídající alespoň jednomu předdefinovanému prahu kvality.
3. Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu podle nároku 2, vyznačující se tím, že kontrola kvality dané nahrávky se provede v reálném čase před započetím nahrávání další nahrávky.
4. Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu podle nároku 2 nebo 3, vyznačující se tím, že předdefinovaný práh kvality má nastavitelnou výši.
5. Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu podle některého z nároků 1 až 4, vyznačující se tím, že metodou zpracování (MZi) je metoda pro detekci předem definovaných úseků v nahrávce.
6. Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu podle některého z nároků 1 až 5, vyznačující se tím, že metodou zpracování (MZi) je metoda pro kontrolu přítomnosti šumu v nahrávce, která je uzpůsobená pro identifikaci charakteristik šumu.
7. Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu podle některého z předešlých nároků 1 až 6, vyznačující se tím, že ohodnocení měr důvěry (Di) dílčích metod zpracování (MZi) se použije pro stanovení celkové míry důvěry (CD) ve výstup jednotlivých metod syntézy řeči (MS).
8. Způsob zpracování nahrávek řečových promluv pro automatickou konzervaci hlasu podle nároku 7, vyznačující se tím, že na základě celkové míry důvěry (CD) se doporučí nejvhodnější metoda syntézy řeči (MS_opt) z takto zakonzervovaného hlasu daného řečníka.
9. Systém pro zpracování nahrávek řečových promluv způsobem podle některého z nároků 1 až 8, vyznačující se tím, že je realizován ve formě počítačové sítě, zejména sítě se vzdáleným přístupem, která obsahuje alespoň jedno zařízení pro nahrávání nebo pro nahrávání a ukládání nahrávek řečových promluv vybrané ze skupiny zahrnující alespoň osobní počítač, tablet, chytrý telefon, a alespoň jedno specializované zařízení, s výhodou server, pro zpracování nebo pro ukládání a zpracování nahrávek řečových promluv.
10. Systém pro zpracování nahrávek řečových promluv způsobem podle některého z nároků 1 až 8, vyznačující se tím, že je realizován ve formě specializovaného zařízení, s výhodou serveru, pro přístup k nahrávkám řečových promluv na datovém nosiči a k jejich zpracování.

-8CZ 308878 B6
11. Systém pro zpracování nahrávek řečových promluv způsobem podle některého z nároků 1 až 8, vyznačující se tím, že je realizován ve formě stolního počítače pro nahrávání a zpracování nahrávek řečových promluv.