G

Technologie převodu textu na řeč

📚 Co je TTS (Text-to-Speech)?

Text-to-Speech, také nazývaný TTS, je forma podpůrné technologie, která přináší snadnost a pohodlí do života. Systém čte digitální texty nahlas a dostatečně jasně, aby je člověk pochopil. TTS je také známá jako technologie čtení nahlas, široce akceptovaná pro svou flexibilitu. Je vzdálený jediným dotykem, kde se text webové stránky převádí na zvuk.

Systém se rozšiřuje na všechna zařízení, jako jsou chytré telefony, notebooky, stolní počítače a tablety, které jsou považovány za ideální pro děti, veřejnost nad 20 let a osoby se zdravotním postižením. Boj se čtením a zdůrazňováním pohledu na elektronická zařízení jsou s TTS pryč a zároveň se zvyšuje zaměření, učení a zvyk číst online prostřednictvím poslechu. Pokud jste tedy blogger, čtenář nebo majitel webu, TTS je software, který vám rozšíří obzor znalostí. Ale jaké jsou výhody hlasu pro všechno, bez omezení a bez hranic? Je rozdělena podle uživatelů, protože oni jsou osobou, která služby používá.

Umožnit lidem konverzovat se stroji je dlouholetým snem o interakci člověk-počítač. Schopnost počítačů porozumět přirozené řeči způsobila v posledních letech revoluci díky použití hlubokých neuronových sítí (např. Google Voice Search). Nicméně generování řeči pomocí počítačů — proces obvykle označovaný jako syntéza řeči nebo převod textu na řeč (TTS) — je stále z velké části založen na t. zv konkatenativní TTS, kde je zaznamenávána velmi rozsáhlá databáze krátkých řečových fragmentů od jednoho mluvčího a poté znovu kombinována do podoby kompletních promluv. To ztěžuje úpravu hlasu (například přepnutí na jiného mluvčího nebo změnu důrazu nebo emocí jejich řeči) bez nahrání celé nové databáze.

📚 Jak funguje technologie TTS?

Proces TTS zahrnuje několik fází:

  • 1. Textový vstup: Prvním krokem je zadání textu, který chcete převést na řeč. Může to být písemný dokument, webová stránka, konverzace s chatovacím robotem nebo dokonce příspěvek na sociální síti.
  • 2. Analýza textu: Text je poté analyzován, aby se určila správná výslovnost, intonace a rytmus. To zahrnuje identifikaci jednotlivých slov, frází a vět a také kontextu, ve kterém jsou použity.
  • 3. Syntéza řeči: Analyzovaný text je poté zpracován pomocí algoritmů syntézy řeči za účelem generování odpovídajícího zvukového výstupu. To zahrnuje vytvoření digitální reprezentace mluvených slov, včetně výšky, tónu a hlasitosti.
  • 4. Audio výstup: Posledním krokem je vytvoření zvukového výstupu, který lze přehrávat přes reproduktory, sluchátka nebo jiná zvuková zařízení.

📚 Typy technologie TTS

Existuje několik typů technologie TTS, včetně:

  • Systémy založené na pravidlech: Tyto systémy používají pro generování řeči předdefinovaná pravidla. Jsou jednoduché a efektivní, ale nemusí produkovat vysoce kvalitní řeč.
  • Statistické modely: Tyto systémy využívají ke generování řeči statistické modely. Jsou pokročilejší než systémy založené na pravidlech a mohou produkovat kvalitnější řeč.
  • Umělá inteligence (AI): Tyto systémy využívají ke generování řeči algoritmy AI. Jsou nejpokročilejším typem technologie TTS a mohou produkovat vysoce přirozenou a konverzační řeč.

📚 Výhody TTS!

GSpeech nabízí mnoho funkcí, včetně online, SaaS, on-premise Text-to-Speech (TTS) řešení pro širokou škálu zdrojů, jako jsou webové stránky, mobilní aplikace, e-knihy, e-learningové materiály, dokumenty, každodenní zákaznická zkušenost, doprava zkušenosti a mnoho dalšího. Jaké výhody získá firma, organizace a vydavatelé, kteří integrují technologii TTS.

🎯 Lepší dostupnost

Technologie TTS poskytuje lepší přístupnost pro jedince se zrakovým postižením, dyslexií nebo problémy se čtením, což jim umožňuje snadnější přístup k informacím a komunikaci.

🎯 Vylepšené SEO

Poskytnutím alternativního způsobu, jak mohou uživatelé konzumovat váš obsah, můžete zlepšit optimalizaci webu WordPress pro vyhledávače (SEO). To je důležité zejména pro uživatele, kteří při procházení webu spoléhají na čtečky obrazovky.

🎯 Vylepšená uživatelská zkušenost

Technologie TTS může vylepšit uživatelskou zkušenost tím, že poskytuje přirozenější a intuitivnější způsob interakce se zařízeními a snižuje potřebu ručního psaní nebo čtení.

🎯 Vylepšený zákaznický servis

Technologie TTS může poskytovat zákaznickou podporu 24 hodin denně, 7 dní v týdnu, odpovídat na často kladené otázky a poskytovat informace zákazníkům efektivněji a efektivněji.

🎯 Zvýšená produktivita

Technologie TTS může zvýšit produktivitu automatizací úloh, jako je zadávání dat, přepis a čtení, čímž se uvolní čas na důležitější úkoly.

🎯 Vícejazyčná podpora

Technologie TTS může podporovat více jazyků, což z ní činí cenný nástroj pro podniky a organizace, které působí globálně.

🎯 Lepší porozumění čtení

Technologie TTS může zlepšit porozumění čtení tím, že uživatelům umožňuje poslouchat text a zároveň sledovat psané slovo, což usnadňuje pochopení složitých informací.

🎯 Snížená únava očí

Technologie TTS může snížit namáhání očí a únavu tím, že poskytuje alternativu ke čtení a psaní, což z ní činí cenný nástroj pro jednotlivce, kteří tráví dlouhé hodiny u obrazovek.

🎯 Zvýšená angažovanost

Technologie TTS může zvýšit zapojení tím, že poskytuje interaktivnější a pohlcující zážitek, což z ní činí cenný nástroj pro vzdělávací a zábavní aplikace.

🎯 Konkurenční výhoda

Technologie TTS může poskytnout konkurenční výhodu tím, že nabízí jedinečný a inovativní způsob interakce se zařízeními a odlišuje váš produkt nebo službu od konkurence.

To vedlo k velké poptávce po parametrické TTS, kde jsou všechny informace potřebné pro generování dat uloženy v parametrech modelu a obsah a charakteristiky řeči lze ovládat prostřednictvím vstupů do modelu. Doposud však parametrické TTS znělo méně přirozeně než zřetězeně. Stávající parametrické modely typicky generují audio signály tak, že jejich výstupy procházejí algoritmy pro zpracování signálů známými jako vokodéry.

WaveNet mění toto paradigma přímým modelováním surového tvaru vlny audio signálu, jeden vzorek po druhém. Kromě poskytování přirozeněji znějící řeči použití nezpracovaných křivek znamená, že WaveNet dokáže modelovat jakýkoli druh zvuku, včetně hudby.

WaveNet: Generativní model pro nezpracovaný zvuk



Výzkumníci se obvykle vyhýbají modelování surového zvuku, protože tiká tak rychle: obvykle 16,000 XNUMX vzorků za sekundu nebo více, s důležitou strukturou v mnoha časových měřítcích. Vybudování zcela autoregresního modelu, ve kterém je predikce pro každý z těchto vzorků ovlivněna všemi předchozími (ve statistikách je každé prediktivní rozdělení podmíněno všemi předchozími pozorováními), je jednoznačně náročný úkol.


Nicméně, PixelRNN si PixelCNN modely, publikované dříve, ukázaly, že je možné generovat složité přirozené obrazy nejen po jednom pixelu, ale po jednom barevném kanálu, což vyžaduje tisíce předpovědí na obrázek. To nás inspirovalo k přizpůsobení našich dvourozměrných sítí PixelNet jednorozměrným sítím WaveNet.




Výše uvedená animace ukazuje, jak je WaveNet strukturován. Je to plně konvoluční neuronová síť, kde konvoluční vrstvy mají různé dilatační faktory, které umožňují jejímu receptivnímu poli exponenciálně růst s hloubkou a pokrývat tisíce časových kroků.


V době tréninku jsou vstupní sekvence skutečnými křivkami zaznamenanými z lidských mluvčích. Po trénování můžeme vzorkovat síť a generovat syntetické výroky. V každém kroku během vzorkování se čerpá hodnota z rozdělení pravděpodobnosti vypočítané sítí. Tato hodnota je poté vrácena zpět do vstupu a je vytvořena nová předpověď pro další krok. Vytváření samplů krok za krokem, jako je tato, je výpočetně nákladné, ale zjistili jsme, že je nezbytné pro generování komplexního, realisticky znějícího zvuku.


Zlepšení stavu umění

Trénovali jsme WaveNet pomocí některých datových sad TTS Google, abychom mohli vyhodnotit jeho výkon. Následující obrázek ukazuje kvalitu WaveNets na stupnici od 1 do 5 ve srovnání se současnými nejlepšími systémy TTS společnosti Google (parametrický si konkatenativní) a pomocí lidské řeči Průměrná skóre názorů (MOS). MOS jsou standardním měřítkem pro subjektivní testy kvality zvuku a byly získány při slepých testech s lidskými subjekty (z více než 500 hodnocení na 100 testovacích větách). Jak můžeme vidět, WaveNets snižují propast mezi současným stavem techniky a lidským výkonem o více než 50 % pro americkou angličtinu i mandarínskou čínštinu.


Pro čínštinu i angličtinu jsou současné systémy TTS společnosti Google považovány za jedny z nejlepších na světě, takže vylepšení obou pomocí jediného modelu je velkým úspěchem.




GSpeech má algoritmus hlasové syntézy AI, který je jedním z nejpokročilejších a nejrealističtějších v oboru. Většina hlasových syntetizérů (včetně Siri od Apple) používá to, čemu se říká konkatenativní syntéza, ve které program ukládá jednotlivé slabiky – zvuky jako „ba“, „sht“ a „oo“ – a skládá je za chodu dohromady, aby vytvořil slova a věty. . Tato metoda se v průběhu let docela zlepšila, ale stále to zní hloupě.


WaveNet pro srovnání používá strojové učení ke generování zvuku od začátku. Ve skutečnosti analyzuje průběhy z obrovské databáze lidské řeči a znovu je vytváří rychlostí 24,000 2016 vzorků za sekundu. Konečný výsledek zahrnuje hlasy s jemností, jako jsou rty a akcenty. Když Google poprvé představil WaveNet v roce XNUMX, byl příliš výpočetně náročný na to, aby mohl pracovat mimo výzkumná prostředí, ale od té doby byl výrazně zeštíhlen a ukazuje jasný kanál od výzkumu k produktu.



11.06.2020
Posuňte svůj obsah na další úroveň! Vyzkoušejte GSpeech nyní!
Registrace zdarma