Text-to-Speech, tiež nazývaný TTS, je forma podpornej technológie, ktorá prináša jednoduchosť a pohodlie do života. Systém číta digitálne texty nahlas a dostatočne jasne, aby im človek porozumel. TTS je tiež známa ako technológia čítania nahlas, široko akceptovaná pre svoju flexibilitu. Je vzdialený jediným dotykom, kde sa text webovej stránky premení na zvuk.
Systém sa rozširuje na všetky zariadenia, ako sú smartfóny, notebooky, stolné počítače a tablety, ktoré sa považujú za ideálne pre deti, verejnosť nad 20 rokov a ľudí so zdravotným postihnutím. Boj s čítaním a zdôrazňovanie pohľadu na elektronické zariadenia sú s TTS preč, pričom sa zvyšuje sústredenie, učenie a zvyk čítať online prostredníctvom počúvania. Ak ste teda bloger, čitateľ alebo majiteľ webu, TTS je softvér, ktorý vám rozšíri obzor vedomostí. Aké sú však výhody hlasu za všetko, bez obmedzení a hraníc? Je oddelená podľa používateľov, pretože oni sú osobou, ktorá používa služby.
Umožniť ľuďom konverzovať so strojmi je dlhoročným snom o interakcii medzi človekom a počítačom. Schopnosť počítačov porozumieť prirodzenej reči spôsobila v posledných rokoch revolúciu vďaka aplikácii hlbokých neurónových sietí (napr. Google Voice Search). Avšak generovanie reči pomocou počítačov — proces, ktorý sa zvyčajne označuje ako syntéza reči alebo prevod textu na reč (TTS) — je stále vo veľkej miere založený na tzv konkatenatívne TTS, kde sa zaznamenáva veľmi veľká databáza krátkych rečových fragmentov od jedného rečníka a potom sa znova kombinujú, aby vytvorili kompletné výpovede. To sťažuje úpravu hlasu (napríklad prepnutie na iného rečníka alebo zmenu dôrazu alebo emócií v ich reči) bez zaznamenania úplne novej databázy.
Proces TTS zahŕňa niekoľko fáz:
Existuje niekoľko typov technológie TTS, vrátane:
GSpeech ponúka mnoho funkcií vrátane online, SaaS, on-premise Text-to-Speech (TTS) riešení pre širokú škálu zdrojov, ako sú webové stránky, mobilné aplikácie, e-knihy, e-learningové materiály, dokumenty, každodenné skúsenosti zákazníkov, doprava skúsenosti a oveľa viac. Ako profituje firma, organizácia a vydavatelia, ktorí integrujú technológiu TTS.
Technológia TTS poskytuje väčšiu dostupnosť pre jednotlivcov so zrakovým postihnutím, dyslexiou alebo problémami s čítaním, čo im umožňuje jednoduchší prístup k informáciám a komunikáciu.
Poskytnutím alternatívneho spôsobu, akým môžu používatelia konzumovať váš obsah, môžete zlepšiť optimalizáciu pre vyhľadávače (SEO) svojej webovej stránky WordPress. Je to dôležité najmä pre používateľov, ktorí sa pri navigácii na webe spoliehajú na čítačky obrazovky.
Technológia TTS môže zlepšiť používateľskú skúsenosť tým, že poskytuje prirodzenejší a intuitívnejší spôsob interakcie so zariadeniami, čím sa znižuje potreba manuálneho písania alebo čítania.
Technológia TTS môže poskytovať 24/7 zákaznícku podporu, odpovedať na často kladené otázky a poskytovať informácie zákazníkom efektívnejším a efektívnejším spôsobom.
Technológia TTS môže zvýšiť produktivitu automatizáciou úloh, ako je zadávanie údajov, prepis a čítanie, čím sa uvoľní čas na dôležitejšie úlohy.
Technológia TTS môže podporovať viacero jazykov, vďaka čomu je cenným nástrojom pre podniky a organizácie, ktoré pôsobia globálne.
Technológia TTS môže zlepšiť porozumenie čítania tým, že používateľom umožňuje počúvať text a zároveň ho sledovať spolu s napísaným slovom, čím uľahčuje pochopenie zložitých informácií.
Technológia TTS môže znížiť namáhanie očí a únavu tým, že poskytuje alternatívu k čítaniu a písaniu, vďaka čomu je cenným nástrojom pre jednotlivcov, ktorí trávia dlhé hodiny pred obrazovkami.
Technológia TTS môže zvýšiť zapojenie poskytovaním interaktívnejšieho a pohlcujúceho zážitku, vďaka čomu je cenným nástrojom pre vzdelávacie a zábavné aplikácie.
Technológia TTS môže poskytnúť konkurenčnú výhodu tým, že ponúka jedinečný a inovatívny spôsob interakcie so zariadeniami, čím odlíši váš produkt alebo službu od konkurencie.
To viedlo k veľkému dopytu po parametrické TTS, kde sú všetky informácie potrebné na generovanie údajov uložené v parametroch modelu a obsah a charakteristiky reči je možné ovládať cez vstupy do modelu. Doteraz však parametrické TTS znelo menej prirodzene ako zreťazené. Existujúce parametrické modely zvyčajne generujú zvukové signály tak, že ich výstupy prechádzajú cez algoritmy spracovania signálov známe ako vokodéry.
WaveNet mení túto paradigmu priamym modelovaním surového tvaru vlny zvukového signálu, jednu vzorku po druhej. Okrem prirodzenejšej reči, použitie nespracovaných priebehov znamená, že WaveNet dokáže modelovať akýkoľvek druh zvuku vrátane hudby.
Výskumníci sa zvyčajne vyhýbajú modelovaniu surového zvuku, pretože tiká tak rýchlo: zvyčajne 16,000 XNUMX vzoriek za sekundu alebo viac, s dôležitou štruktúrou v mnohých časových intervaloch. Vytvorenie úplne autoregresívneho modelu, v ktorom je predikcia pre každú z týchto vzoriek ovplyvnená všetkými predchádzajúcimi (v štatistike je každé prediktívne rozdelenie podmienené všetkými predchádzajúcimi pozorovaniami), je jednoznačne náročná úloha.
Avšak, PixelRNN a PixelCNN modely, ktoré boli publikované skôr, ukázali, že je možné generovať zložité prirodzené obrázky nielen po jednom pixeli, ale po jednom farebnom kanáli, čo si vyžaduje tisíce predpovedí na obrázok. To nás inšpirovalo prispôsobiť naše dvojrozmerné siete PixelNet jednorozmernej sieti WaveNet.
Vyššie uvedená animácia ukazuje, ako je WaveNet štruktúrovaný. Je to plne konvolučná neurónová sieť, kde konvolučné vrstvy majú rôzne dilatačné faktory, ktoré umožňujú jej vnímavému poľu exponenciálne rásť s hĺbkou a pokrývať tisíce časových krokov.
V čase tréningu sú vstupné sekvencie skutočnými priebehmi zaznamenanými z ľudských reproduktorov. Po tréningu môžeme vzorkovať sieť na generovanie syntetických výrokov. V každom kroku počas vzorkovania sa získa hodnota z rozdelenia pravdepodobnosti vypočítaného sieťou. Táto hodnota sa potom vráti späť do vstupu a vytvorí sa nová predpoveď pre ďalší krok. Vytváranie vzoriek po jednom kroku, ako je tento, je výpočtovo nákladné, ale zistili sme, že je to nevyhnutné na generovanie komplexného, realisticky znejúceho zvuku.
Trénovali sme WaveNet pomocou niektorých množín údajov TTS Google, aby sme mohli vyhodnotiť jeho výkonnosť. Nasledujúci obrázok ukazuje kvalitu WaveNets na stupnici od 1 do 5 v porovnaní so súčasnými najlepšími systémami TTS spoločnosti Google (parametrické a zreťazený) a pomocou ľudskej reči Priemerné skóre názorov (MOS). MOS sú štandardnou mierou pre subjektívne testy kvality zvuku a boli získané v slepých testoch s ľudskými subjektmi (z viac ako 500 hodnotení na 100 testovacích viet). Ako vidíme, WaveNets zmenšujú rozdiel medzi najnovším stavom techniky a ľudským výkonom o viac ako 50 % pre americkú angličtinu aj mandarínsku čínštinu.
Pre čínštinu aj angličtinu sú súčasné systémy TTS spoločnosti Google považované za jedny z najlepších na svete, takže zlepšenie oboch pomocou jediného modelu je veľkým úspechom.
GSpeech má algoritmus hlasovej syntézy AI, ktorý je jedným z najpokročilejších a najrealistickejších v odbore. Väčšina hlasových syntetizátorov (vrátane Siri od Apple) používa to, čo sa nazýva zreťazená syntéza, v ktorej program ukladá jednotlivé slabiky – zvuky ako „ba“, „sht“ a „oo“ – a za pochodu ich skladá dohromady, aby vytvoril slová a vety. . Táto metóda sa v priebehu rokov veľmi zlepšila, ale stále to znie hlúpo.
Na porovnanie, WaveNet používa strojové učenie na generovanie zvuku od začiatku. V skutočnosti analyzuje priebehy z obrovskej databázy ľudskej reči a znovu ich vytvára rýchlosťou 24,000 2016 vzoriek za sekundu. Konečný výsledok zahŕňa hlasy s jemnosťou, ako sú úškľabky a akcenty. Keď spoločnosť Google prvýkrát predstavila WaveNet v roku XNUMX, bola príliš výpočtovo náročná na prácu mimo výskumných prostredí, no odvtedy sa výrazne zoštíhlila, čo ukazuje, že od výskumu k produktu je jasné.