Simon Poghosjan je zakladatelem a generálním ředitelem společnosti GSpeech, webová platforma s umělou inteligencí, která pomáhá zpřístupnit online obsah převodem textu na přirozeně znějící zvuk ve více než 70 jazycích. Simon, jehož zázemí je návrh VLSI a silný zájem o programování a uživatelskou zkušenost, vytvořil GSpeech, aby zjednodušil způsob, jakým mohou webové stránky nabízet hlasem ovládaný obsah.
GSpeech dnes generuje každý měsíc přibližně 200 milionů znaků zvuku a používá se ve více než 70 zemích. Jeho přizpůsobitelné audio přehrávače umožňují více než 200,000 1 přehrání měsíčně. GSpeech, který nedávno překročil celkovou hranici XNUMX miliardy znaků vygenerovaných zvukem, nadále rychle roste. Platforma je navržena tak, aby se snadno integrovala – vyžaduje pouze jeden řádek kódu – a podporuje tvůrce, pedagogy a firmy v tom, aby jejich obsah byl inkluzivnější a poutavější.
Vaše zkušenosti s návrhem VLSI (Very Large Scale Integration) a rané zkušenosti s programováním položily silný technický základ. Co vás inspirovalo k přechodu od mikroelektroniky k tvorbě softwaru s umělou inteligencí a jak to vedlo k vytvoření GSpeech?
Moje vášeň pro řešení problémů začala na střední škole, poháněná láskou k matematice a fyzice. Tento zájem mě vedl k získání bakalářského (2009) a magisterského (2011) titulu v oboru návrhu VLSI na Arménské státní inženýrské univerzitě ve spolupráci se společností Synopsys Armenia. Studium fyziky mě vycvičilo v přesnosti a analytickém myšlení, ale až ve druhém ročníku jsem objevil programování – začal jsem jazykem Pascal – a okamžitě jsem se do něj zamiloval. S kamarádem jsme plnili úkoly hned, jak jsme je dostali, i když jsme do dokončení měli šest měsíců. Pak jsme pro zábavu začali plnit úkoly ostatních studentů.
Tato vášeň mě vedla hlouběji k vývoji softwaru. Začal jsem tvorbou webových stránek a poté jsem si vytvořil vlastní CMS. Po dokončení několika projektů v oblasti automatizace procesů a návrhu architektur pro správu dat jsem si uvědomil, jak moc miluji tvorbu digitálních řešení pro webová rozhraní. Prostřednictvím projektu 2GLux jsem spolupracoval s Edvardem Ananyanem – tvůrcem populárního GTranslate překladatelská služba a kamarád ze školy z gymnázia Quantum. Seznámil mě s ekosystémy WordPress a Joomla a s konceptem pro GSpeech vzniklo u něj. Tato raná práce vedla k první verzi našeho nástroje, který uživatelům umožňoval poslouchat text na webové stránce, a položil tak základy pro to, co se později stalo plnohodnotnou platformou umělé inteligence. Do roku 2023 jsem založil Smarts Club LLC do měřítka GSpeech do globálního zvukového řešení s umělou inteligencí, které podporuje více než 70 jazyků. Humanity UnionChvála platformy GSpeech za její roli ve zlepšení přístupnosti její platformy pro občanskou angažovanost odráží mé poslání překlenout digitální propast prostřednictvím umělé inteligence – vizi zakořeněnou v mých raných dobách programování.
GSpeech původně vznikl jako nástroj pro podporu zrakově postižených uživatelů. Jak toto rané poslání ovlivnilo vývoj platformy v plnohodnotné řešení pro převod textu na řeč s umělou inteligencí?
Zaměření na přístupnost vedlo k vývoji vysoce kvalitního zvuku s umělou inteligencí v reálném čase, překladu do více než 70 jazyků a bezproblémové integrace s webovými stránkami pomocí jednoduchého úryvku kódu. Tato mise vedla k funkcím, jako jsou přizpůsobitelné audio přehrávače, panely pro výběr jazyka a hlasu, přehrávání v závislosti na kontextu, stahování zvuku a podrobné statistiky používání – včetně údajů o zemi, městě, zařízení a analýzy přehrávání v čase – to vše je navrženo tak, aby byl obsah inkluzivnější a poutavější. Po napsání více než 100,000 2023 řádků kódu jsem v roce XNUMX spustil cloudovou konzoli GSpeech – škálovatelné řešení, které vyvažuje inkluzivitu s pokročilými funkcemi a umožňuje firmám a tvůrcům zpřístupnit svůj obsah, učinit jej vícejazyčným a interaktivním na celém webu.
S jakými největšími technickými problémy jste se setkali během vývoje cloudové konzole GSpeech?
Jednou z největších výzev při vývoji cloudové konzole GSpeech byl návrh škálovatelné architektury pro generování zvuku s využitím umělé inteligence v reálném čase, bezpečně a ve vysoké kvalitě. To vyžadovalo inovativní řešení pro načítání relevantního obsahu z webu, zpracování zvuku na našich serverech a jeho ukládání do cloudu pro rychlé a spolehlivé doručování. Implementace robustních bezpečnostních opatření, jako je šifrování a řízení přístupu, byla klíčová pro ochranu dynamického obsahu generovaného uživateli.
Další překážkou bylo umožnění překladu v reálném čase pomocí pokročilých neuronových motorů. Museli jsme zajistit nízkolatenční a přesné překlady a zároveň vytvořit intuitivní rozhraní, které uživatelům umožňuje vybrat si jazyky a preferované hlasové profily pro přehrávání, s prioritou pro uživatelské pohodlí a personalizaci. Nakonec jsme vyvinuli průvodce pro tvorbu zvukových šablon s několika přizpůsobitelnými zobrazeními přehrávačů, což uživatelům umožňuje navrhovat jedinečné, vizuálně přitažlivé přehrávače přizpůsobené jejich webovým stránkám. Vyvážení flexibility, výkonu a snadného použití napříč zařízeními bylo obohacující výzvou.
S překladem v reálném čase do více než 70 jazyků a s více než 230 přirozeně znějícími hlasy. Jak zajišťujete kvalitu hlasu a udržujete přesnost v tak rozmanité jazykové sadě?
Abychom udrželi konzistentní kvalitu hlasu, integrujeme několik pokročilých modelů převodu textu na řeč (TTS), které jsou neustále optimalizovány a aktualizovány. Tyto vícejazyčné enginy zpracovávají obsah se smíšeným jazykem s vysokou přesností. Zavádíme také více než 100 nových hlasových vibrací, abychom uživatelům poskytli ještě expresivnější a přirozeněji znějící možnosti. GSpeech každý měsíc generuje přes 200 milionů znaků zvuku a slouží uživatelům ve více než 70 zemích. Naše online přehrávače jsou používány více než 200,000 XNUMXkrát měsíčně – a toto číslo stále roste. Toto měřítko zajišťuje průběžnou zpětnou vazbu a testování v reálném světě, což přímo ovlivňuje naše ladění a kontroly kvality.
Můžete nám prosím vysvětlit, jak GSpeech využívá umělou inteligenci a strojové učení k poskytování realistické hlasové syntézy? Jak se vám daří držet krok s rychlým pokrokem v technologii neuronového hlasu?
GSpeech využívá pokročilou umělou inteligenci a strojové učení a integruje několik nejmodernějších modelů převodu textu na řeč k vytvoření realistické hlasové syntézy. Tyto modely, optimalizované pro přirozenost a vícejazyčnou podporu, zpracovávají textové vstupy a generují vysoce kvalitní zvuk s realistickou intonací a rytmem, a to i pro obsah ve smíšených jazycích. Vylepšujeme uživatelský zážitek tím, že nabízíme přizpůsobitelné hlasové styly pro různé jazyky. Integrovali jsme také aliasy TTS, které uživatelům umožňují definovat vlastní pravidla pro to, jak se určitá slova nebo fráze vykreslují ve zvuku – například nahrazují konkrétní termíny pro dosažení přesnější výslovnosti nebo frázování. Abychom drželi krok s technologií neuronového hlasu, neustále vyhodnocujeme a integrujeme nejnovější pokroky, spolupracujeme s lídry v oboru a plánujeme v budoucnu vyvíjet vlastní modely, abychom zajistili, že GSpeech zůstane v popředí inovací v oblasti hlasové syntézy.
Jak důležité je pro vaše uživatele ladění hlasu, ovládání výšky tónu a přizpůsobení přehrávání – a v jakém případě použití jste nejvíce hrdí a kde tyto funkce skutečně vynikají?
Ladění hlasu, ovládání výšky tónu a přizpůsobení přehrávání jsou pro naše uživatele klíčové, protože jim umožňují vytvářet jedinečné, vysoce kvalitní hlasové styly přizpůsobené jejich specifickým potřebám, od zpravodajských a blogových webových stránek až po přístupný e-learningový obsah. Probíhající integrace více než 100 nových hlasových vibrací to dále umocňuje a nabízí uživatelům bezkonkurenční flexibilitu při vytváření skutečně osobitých dabingů. Jsem nejvíce hrdý na GSpeech Studio, novou platformu pro editaci a generování zvuku, kterou vyvíjím. Umožňuje uživatelům vytvářet více zvukových kanálů, míchat je s hudbou na pozadí a exportovat vytříbené dabingy, což tvůrcům umožňuje vytvářet zvuk profesionální kvality pro různé aplikace. Dopis zrakově postiženého studenta, který děkuje GSpeech za umožnění samostatného studia prostřednictvím přizpůsobeného zvuku, se mě hluboce dojal. Tento případ použití ukazuje, jak tyto funkce zpřístupňují a transformují obsah, což je cíl, o který jsem se snažil od svých počátků programování.
GSpeech nabízí bezproblémovou integraci s WordPressem, Shopify, Wix a dalšími. Jaká byla vaše strategie, jak z platformy udělat plug-and-play pro tvůrce a firmy napříč různými ekosystémy?
Naše strategie pro plug-and-play integrace GSpeech s platformami jako WordPress, Shopify a Wix se zaměřila na jednoduchost, kompatibilitu a škálovatelnost. Vyvinuli jsme lehké, modulární pluginy a úryvky kódu, které se bezproblémově integrují a vyžadují minimální nastavení – často jen pár kliknutí. To znamená, že tisíce článků a dynamických bloků obsahu mohou okamžitě získat hlasovou podporu – bez manuální námahy. Nabízíme vysoce flexibilní, krásně navržené přehrávače, které se přizpůsobí různým zařízením, včetně mobilních telefonů, tabletů a stolních počítačů. Naše přehrávače jsou nejen přizpůsobitelné, ale také optimalizované pro přístupnost a zapojení uživatelů. Pro WordPress jsme vložili cloudový dashboard GSpeech přímo do administrátorského panelu prostřednictvím našeho pluginu, což zjednodušuje správu pro uživatele. Podrobná dokumentace a intuitivní dashboardy provedou netechnické uživatele instalací a přizpůsobením. Pravidelné testování zajišťuje konzistentní výkon napříč různými ekosystémy a umožňuje tvůrcům a firmám bez námahy přidávat převod textu na řeč s využitím umělé inteligence.
Když se ohlédnete za cestou od roku 2012 do dneška, co bylo pro vás osobně nebo profesně největším milníkem při budování GSpeechu?
Největším milníkem pro GSpeech bylo vygenerování 1 miliardy znaků vysoce kvalitního zvuku s využitím umělé inteligence, což demonstrovalo náš globální dopad na přístupnost. Stejně významná byla zpětná vazba, kterou jsme obdrželi od organizací, jako je Humanity Union, které chválily GSpeech za vylepšení jejich platformy pro společenskou odpovědnost, a od majitelů blogů, kteří jej označili za „zvratný prvek“ v zapojení uživatelů. Více než 110 pětihvězdičkových recenzí napříč platformami, jako je WordPress si AppSumo v posledních měsících odrážejí tuto rostoucí důvěru.
GSpeech nyní aktivně používají i Regionální statistický úřad Namangan v Uzbekistánu — vládní instituce s významnou návštěvností a celostátní viditelností. To, že veřejný orgán tak široce přijal naši technologii, bylo významným milníkem a silným znamením důvěry v naše řešení.
Jako křesťan a člověk, který slouží v arménské církvi, se snažím, kdykoli je to možné, podporovat i další náboženské iniciativy. Často nabízím GSpeech zdarma křesťanským webovým stránkám, abych jim pomohl efektivněji šířit jejich poselství a zpřístupnit Písmo svaté prostřednictvím zvuku. Je to můj malý příspěvek k něčemu většímu. Zároveň je mi ctí spolupracovat s oddanými organizacemi, jako je Šňůra — mesiášská kongregace a vážený klient GSpeech — jejíž poslání a obsah odrážejí sílu Písma v praxi.
Tyto okamžiky – kdy se technologie stane mostem k víře, porozumění a začlenění – mi připomínají, proč jsme vůbec GSpeech vytvořili.
Jakou roli podle vás hraje GSpeech v budoucnosti digitálních médií, zejména s tím, jak dominantní se stávají zvukový obsah a hlasová rozhraní?
Představuji si GSpeech jako lídra v oblasti zpřístupnění a poutavějších digitálních médií tím, že umožní hlasový přístup k webu s využitím umělé inteligence. Naším cílem je transformovat celý online zážitek tak, aby se webové stránky staly přirozeně interaktivními, inkluzivními a ve výchozím nastavení vícejazyčnými. S jediným řádkem kódu mohou majitelé webů proměnit tisíce článků v hlasový obsah. Do budoucna vyvíjíme GSpeech Studio jako výkonnou a jedinečnou platformu pro generování a úpravu zvuku, která uživatelům umožní vytvářet vícevrstvý hlasový obsah s hudbou na pozadí, efekty a přesným laděním. Chceme, aby web byl skutečně slyšitelný, intuitivní a univerzálně přístupný.
GSpeech byl nedávno spuštěn na AppSumo a již si vysloužila téměř perfektní hodnocení od prvních uživatelů. Co pro vás znamenala reakce komunity AppSumo a jak plánujete na tuto dynamiku navázat do budoucna?
Spuštění AppSumo představilo GSpeech milionům lidí a jeho téměř dokonalé hodnocení je neuvěřitelně povzbudivé. Uživatelé, jako například ti, kteří provozují online kurzy, chválí naše intuitivní nástroje a responzivní podporu a shodují se s názory od Humanity Union. Majitel blogu označil naše hlasy za „skutečně poutavé“ a překlady za „působivé“. Jejich pozitivní zpětná vazba potvrzuje hodnotu našeho řešení pro převod textu na řeč s využitím umělé inteligence a živí mou vášeň pro tento projekt. Podpora klientů během spuštění také podnítila nové nápady, zejména pro GSpeech Studio, které bylo inspirováno požadavky uživatelů na pokročilé funkce pro úpravu a export zvuku. Do budoucna plánuji na tomto impulsu stavět tím, že budu aktivně naslouchat naší komunitě, integrovat jejich zpětnou vazbu a vyvíjet inovativní funkce pro zlepšení přístupnosti a zapojení, čímž zajistím, že se GSpeech bude i nadále vyvíjet jako transformační nástroj pro tvůrce a firmy.
A nakonec, jakou radu byste dali mladým vývojářům nebo podnikatelům, kteří chtějí v dnešní rychle se rozvíjející technologické krajině vytvářet přístupné nástroje založené na umělé inteligenci?
Mladým vývojářům a podnikatelům radím, aby do své práce vložili srdce a identifikovali skutečný problém, u kterého můžete nabídnout jedinečné a chytré řešení. Začněte v malém, postupujte opatrně a pozorně naslouchejte zpětné vazbě od zákazníků – ta vám ukáže cestu. Chovejte se k uživatelům jako k důvěryhodným přátelům, dejte do toho všechno a buďte trpěliví. Přijměte technologie umělé inteligence jako silné spojence; pokud je používáte moudře, zesilují vaši schopnost vytvářet efektivní a dostupné nástroje. Vytvářejte s vášní, vytrvalostí a odhodláním něco změnit a vytvoříte řešení, na kterých skutečně záleží.
Děkuji Antoine Tardif k rozhovoru. Celý rozhovor si můžete přečíst zde: unite.ai.