Text-to-Speech, také nazývaný TTS, je forma podpůrné technologie, která přináší snadnost a pohodlí do života. Systém čte digitální texty nahlas a dostatečně jasně, aby je člověk pochopil. TTS je také známá jako technologie čtení nahlas, široce akceptovaná pro svou flexibilitu. Je vzdálený jediným dotykem, kde se text webové stránky převádí na zvuk.
Systém se rozšiřuje na všechna zařízení, jako jsou chytré telefony, notebooky, stolní počítače a tablety, které jsou považovány za ideální pro děti, veřejnost nad 20 let a osoby se zdravotním postižením. Boj se čtením a zdůrazňováním pohledu na elektronická zařízení jsou s TTS pryč a zároveň se zvyšuje zaměření, učení a zvyk číst online prostřednictvím poslechu. Pokud jste tedy blogger, čtenář nebo majitel webu, TTS je software, který vám rozšíří obzor znalostí. Ale jaké jsou výhody hlasu pro všechno, bez omezení a bez hranic? Je rozdělena podle uživatelů, protože oni jsou osobou, která služby používá.
Umožnit lidem konverzovat se stroji je dlouholetým snem o interakci člověk-počítač. Schopnost počítačů porozumět přirozené řeči způsobila v posledních letech revoluci díky použití hlubokých neuronových sítí (např. Google Voice Search). Nicméně generování řeči pomocí počítačů — proces obvykle označovaný jako syntéza řeči nebo převod textu na řeč (TTS) — je stále z velké části založen na t. zv konkatenativní TTS, kde je zaznamenávána velmi rozsáhlá databáze krátkých řečových fragmentů od jednoho mluvčího a poté znovu kombinována do podoby kompletních promluv. To ztěžuje úpravu hlasu (například přepnutí na jiného mluvčího nebo změnu důrazu nebo emocí jejich řeči) bez nahrání celé nové databáze.
Proces TTS zahrnuje několik fází:
Existuje několik typů technologie TTS, včetně:
GSpeech nabízí mnoho funkcí, včetně online, SaaS, on-premise Text-to-Speech (TTS) řešení pro širokou škálu zdrojů, jako jsou webové stránky, mobilní aplikace, e-knihy, e-learningové materiály, dokumenty, každodenní zákaznická zkušenost, doprava zkušenosti a mnoho dalšího. Jaké výhody získá firma, organizace a vydavatelé, kteří integrují technologii TTS.
Technologie TTS poskytuje lepší přístupnost pro jedince se zrakovým postižením, dyslexií nebo problémy se čtením, což jim umožňuje snadnější přístup k informacím a komunikaci.
Poskytnutím alternativního způsobu, jak mohou uživatelé konzumovat váš obsah, můžete zlepšit optimalizaci webu WordPress pro vyhledávače (SEO). To je důležité zejména pro uživatele, kteří při procházení webu spoléhají na čtečky obrazovky.
Technologie TTS může vylepšit uživatelskou zkušenost tím, že poskytuje přirozenější a intuitivnější způsob interakce se zařízeními a snižuje potřebu ručního psaní nebo čtení.
Technologie TTS může poskytovat zákaznickou podporu 24 hodin denně, 7 dní v týdnu, odpovídat na často kladené otázky a poskytovat informace zákazníkům efektivněji a efektivněji.
Technologie TTS může zvýšit produktivitu automatizací úloh, jako je zadávání dat, přepis a čtení, čímž se uvolní čas na důležitější úkoly.
Technologie TTS může podporovat více jazyků, což z ní činí cenný nástroj pro podniky a organizace, které působí globálně.
Technologie TTS může zlepšit porozumění čtení tím, že uživatelům umožňuje poslouchat text a zároveň sledovat psané slovo, což usnadňuje pochopení složitých informací.
Technologie TTS může snížit namáhání očí a únavu tím, že poskytuje alternativu ke čtení a psaní, což z ní činí cenný nástroj pro jednotlivce, kteří tráví dlouhé hodiny u obrazovek.
Technologie TTS může zvýšit zapojení tím, že poskytuje interaktivnější a pohlcující zážitek, což z ní činí cenný nástroj pro vzdělávací a zábavní aplikace.
Technologie TTS může poskytnout konkurenční výhodu tím, že nabízí jedinečný a inovativní způsob interakce se zařízeními a odlišuje váš produkt nebo službu od konkurence.
To vedlo k velké poptávce po parametrické TTS, kde jsou všechny informace potřebné pro generování dat uloženy v parametrech modelu a obsah a charakteristiky řeči lze ovládat prostřednictvím vstupů do modelu. Doposud však parametrické TTS znělo méně přirozeně než zřetězeně. Stávající parametrické modely typicky generují audio signály tak, že jejich výstupy procházejí algoritmy pro zpracování signálů známými jako vokodéry.
WaveNet mění toto paradigma přímým modelováním surového tvaru vlny audio signálu, jeden vzorek po druhém. Kromě poskytování přirozeněji znějící řeči použití nezpracovaných křivek znamená, že WaveNet dokáže modelovat jakýkoli druh zvuku, včetně hudby.
Výzkumníci se obvykle vyhýbají modelování surového zvuku, protože tiká tak rychle: obvykle 16,000 XNUMX vzorků za sekundu nebo více, s důležitou strukturou v mnoha časových měřítcích. Vybudování zcela autoregresního modelu, ve kterém je predikce pro každý z těchto vzorků ovlivněna všemi předchozími (ve statistikách je každé prediktivní rozdělení podmíněno všemi předchozími pozorováními), je jednoznačně náročný úkol.
Nicméně, PixelRNN si PixelCNN modely, publikované dříve, ukázaly, že je možné generovat složité přirozené obrazy nejen po jednom pixelu, ale po jednom barevném kanálu, což vyžaduje tisíce předpovědí na obrázek. To nás inspirovalo k přizpůsobení našich dvourozměrných sítí PixelNet jednorozměrným sítím WaveNet.
Výše uvedená animace ukazuje, jak je WaveNet strukturován. Je to plně konvoluční neuronová síť, kde konvoluční vrstvy mají různé dilatační faktory, které umožňují jejímu receptivnímu poli exponenciálně růst s hloubkou a pokrývat tisíce časových kroků.
V době tréninku jsou vstupní sekvence skutečnými křivkami zaznamenanými z lidských mluvčích. Po trénování můžeme vzorkovat síť a generovat syntetické výroky. V každém kroku během vzorkování se čerpá hodnota z rozdělení pravděpodobnosti vypočítané sítí. Tato hodnota je poté vrácena zpět do vstupu a je vytvořena nová předpověď pro další krok. Vytváření samplů krok za krokem, jako je tato, je výpočetně nákladné, ale zjistili jsme, že je nezbytné pro generování komplexního, realisticky znějícího zvuku.
Trénovali jsme WaveNet pomocí některých datových sad TTS Google, abychom mohli vyhodnotit jeho výkon. Následující obrázek ukazuje kvalitu WaveNets na stupnici od 1 do 5 ve srovnání se současnými nejlepšími systémy TTS společnosti Google (parametrický si konkatenativní) a pomocí lidské řeči Průměrná skóre názorů (MOS). MOS jsou standardním měřítkem pro subjektivní testy kvality zvuku a byly získány při slepých testech s lidskými subjekty (z více než 500 hodnocení na 100 testovacích větách). Jak můžeme vidět, WaveNets snižují propast mezi současným stavem techniky a lidským výkonem o více než 50 % pro americkou angličtinu i mandarínskou čínštinu.
Pro čínštinu i angličtinu jsou současné systémy TTS společnosti Google považovány za jedny z nejlepších na světě, takže vylepšení obou pomocí jediného modelu je velkým úspěchem.
GSpeech má algoritmus hlasové syntézy AI, který je jedním z nejpokročilejších a nejrealističtějších v oboru. Většina hlasových syntetizérů (včetně Siri od Apple) používá to, čemu se říká konkatenativní syntéza, ve které program ukládá jednotlivé slabiky – zvuky jako „ba“, „sht“ a „oo“ – a skládá je za chodu dohromady, aby vytvořil slova a věty. . Tato metoda se v průběhu let docela zlepšila, ale stále to zní hloupě.
WaveNet pro srovnání používá strojové učení ke generování zvuku od začátku. Ve skutečnosti analyzuje průběhy z obrovské databáze lidské řeči a znovu je vytváří rychlostí 24,000 2016 vzorků za sekundu. Konečný výsledek zahrnuje hlasy s jemností, jako jsou rty a akcenty. Když Google poprvé představil WaveNet v roce XNUMX, byl příliš výpočetně náročný na to, aby mohl pracovat mimo výzkumná prostředí, ale od té doby byl výrazně zeštíhlen a ukazuje jasný kanál od výzkumu k produktu.