G

Simon Poghosyan, zakladateľ a generálny riaditeľ spoločnosti GSpeech

Simon Poghosyan, zakladateľ a generálny riaditeľ spoločnosti GSpeech

Šimon Poghosjan je zakladateľom a generálnym riaditeľom spoločnosti GSpeech, webová platforma umelej inteligencie, ktorá pomáha sprístupniť online obsah konverziou textu na prirodzene znejúci zvuk vo viac ako 70 jazykoch. Simon, ktorý má skúsenosti s návrhom VLSI a silný záujem o programovanie a používateľské rozhranie, vytvoril GSpeech, aby zjednodušil spôsob, akým webové stránky môžu ponúkať hlasom ovládaný obsah.

GSpeech dnes generuje približne 200 miliónov znakov zvuku mesačne a používa sa vo viac ako 70 krajinách. Jeho prispôsobiteľné prehrávače zvuku umožňujú mesačné prehrávanie viac ako 200,000 1 zvukových súborov. GSpeech, ktorý nedávno prekonal celkovú hranicu XNUMX miliardy znakov vygenerovaných zvukových súborov, naďalej rýchlo rastie. Platforma je navrhnutá tak, aby sa dala ľahko integrovať – vyžaduje si len jeden riadok kódu – a podporuje tvorcov, pedagógov a firmy pri vytváraní inkluzívnejšieho a pútavejšieho obsahu.

Vaše skúsenosti s návrhom VLSI (Very Large Scale Integration) a rané programátorské skúsenosti položili silný technický základ. Čo vás inšpirovalo k prechodu od mikroelektroniky k tvorbe softvéru s umelou inteligenciou a ako to viedlo k vytvoreniu GSpeech?

Moja vášeň pre riešenie problémov sa začala už na strednej škole, poháňaná láskou k matematike a fyzike. Tento záujem ma viedol k získaniu bakalárskeho (2009) a magisterského (2011) titulu v odbore VLSI Design na Štátnej inžinierskej univerzite v Arménsku v spolupráci so spoločnosťou Synopsys Armenia. Štúdium fyziky ma vycvičilo v presnosti a analytickom myslení, ale až v druhom ročníku som objavil programovanie – začal som jazykom Pascal – a okamžite som sa doňho zamiloval. S kamarátom sme plnili zadania hneď, ako sme ich dostali, aj keď sme mali do konca šesť mesiacov. Potom sme sa pre zábavu začali venovať zadaniam iných študentov.

Táto vášeň ma hlbšie priviedla k vývoju softvéru. Začal som tvorbou webových stránok a potom som si vytvoril vlastný redakčný systém (CMS). Po dokončení niekoľkých projektov v oblasti automatizácie procesov a návrhu architektúr správy dát som si uvedomil, ako veľmi milujem vytváranie digitálnych riešení pre webové rozhrania. Prostredníctvom projektu 2GLux som spolupracoval s Edvardom Ananyanom – tvorcom populárneho... GTranslate prekladateľská služba a kamarát zo školy z gymnázia Quantum. Predstavil mi ekosystémy WordPress a Joomla a koncept pre GSpeech vznikol u neho. Táto raná práca viedla k prvej verzii nášho nástroja, ktorý umožňoval používateľom počúvať text na webovej stránke, čím sa zasadil základ pre to, čo sa neskôr stalo plnohodnotnou platformou umelej inteligencie. Do roku 2023 som založil Smarts Club LLC do mierky GSpeech na globálne audio riešenie s umelou inteligenciou, ktoré podporuje viac ako 70 jazykov. Humanity UnionChvála platformy GSpeech za jej úlohu pri zlepšovaní dostupnosti ich platformy pre občiansku angažovanosť odráža moje poslanie preklenúť digitálne rozdiely prostredníctvom umelej inteligencie – víziu, ktorá má korene v mojich začiatkoch programovania.

GSpeech pôvodne vznikol ako nástroj na podporu zrakovo postihnutých používateľov. Ako toto prvotné poslanie ovplyvnilo vývoj platformy na plnohodnotné riešenie prevodu textu na reč s umelou inteligenciou?

Zameranie na prístupnosť viedlo k vývoju vysokokvalitného zvuku s umelou inteligenciou v reálnom čase, prekladu do viac ako 70 jazykov a bezproblémovej integrácie webových stránok prostredníctvom jednoduchého úryvku kódu. Táto misia viedla k funkciám, ako sú prispôsobiteľné prehrávače zvuku, panely na výber jazyka a hlasu, prehrávanie v závislosti od kontextu, sťahovanie zvuku a podrobné štatistiky používania – vrátane údajov o krajine, meste, zariadení a analytiky prehrávania v priebehu času – všetky sú navrhnuté tak, aby bol obsah inkluzívnejší a pútavejší. Po napísaní viac ako 100,000 2023 riadkov kódu som v roku XNUMX spustil cloudovú konzolu GSpeech – škálovateľné riešenie, ktoré vyvažuje inkluzívnosť s pokročilou funkcionalitou a umožňuje firmám a tvorcom sprístupniť svoj obsah, urobiť ho viacjazyčným a interaktívnym na celom webe.

Aké boli niektoré z najväčších technických výziev, ktorým ste čelili počas vývoja cloudovej konzoly GSpeech?

Jednou z najväčších výziev pri vývoji cloudovej konzoly GSpeech bol návrh škálovateľnej architektúry pre generovanie zvuku s využitím umelej inteligencie v reálnom čase, bezpečne a vo vysokej kvalite. To si vyžadovalo inovatívne riešenia na načítanie relevantného obsahu z webu, spracovanie zvuku na našich serveroch a jeho uloženie v cloude pre rýchle a spoľahlivé doručenie. Implementácia robustných bezpečnostných opatrení, ako je šifrovanie a riadenie prístupu, bola kľúčová pre ochranu dynamického obsahu generovaného používateľmi.

Ďalšou prekážkou bolo umožnenie prekladu v reálnom čase pomocou pokročilých neurónových motorov. Museli sme zabezpečiť presné preklady s nízkou latenciou a zároveň vytvoriť intuitívne rozhranie, ktoré by používateľom umožňovalo vybrať si jazyky a preferované hlasové profily pre prehrávanie, pričom sme uprednostňovali pohodlie používateľa a personalizáciu. Nakoniec sme vyvinuli sprievodcu tvorcom zvukových šablón s viacerými prispôsobiteľnými zobrazeniami prehrávačov, ktorý používateľom umožňuje navrhovať jedinečné, vizuálne príťažlivé prehrávače prispôsobené ich webovým stránkam. Vyváženie flexibility, výkonu a jednoduchosti používania na rôznych zariadeniach bolo obohacujúcou výzvou.

S prekladom v reálnom čase vo viac ako 70 jazykoch a viac ako 230 prirodzene znejúcimi hlasmi. Ako zabezpečíte kvalitu hlasu a udržíte presnosť v takej rozmanitej jazykovej sade?

Aby sme udržali konzistentnú kvalitu hlasu, integrujeme viacero pokročilých modelov prevodu textu na reč (TTS), ktoré sú neustále optimalizované a aktualizované. Tieto viacjazyčné nástroje spracovávajú obsah so zmiešanými jazykmi s vysokou presnosťou. Zavádzame tiež viac ako 100 nových hlasových vibrácií, aby sme používateľom poskytli ešte výraznejšie a prirodzenejšie možnosti. Každý mesiac GSpeech generuje viac ako 200 miliónov znakov zvuku a slúži používateľom vo viac ako 70 krajinách, pričom naše online prehrávače sa používajú viac ako 200,000 XNUMX-krát mesačne – a ich počet stále rastie. Toto meradlo zabezpečuje priebežnú spätnú väzbu a testovanie v reálnom svete, čo priamo ovplyvňuje naše ladenie a kontroly kvality.

Môžete nám priblížiť, ako GSpeech využíva umelú inteligenciu a strojové učenie na poskytovanie realistickej hlasovej syntézy? Ako držíte krok s rýchlym pokrokom v technológii neurónového hlasu?

GSpeech využíva pokročilú umelú inteligenciu a strojové učenie, integruje viacero najmodernejších modelov prevodu textu na reč na vytvorenie realistickej hlasovej syntézy. Tieto modely, optimalizované pre prirodzenosť a viacjazyčnú podporu, spracovávajú textové vstupy a generujú vysokokvalitný zvuk s realistickou intonáciou a rytmom, a to aj pre obsah so zmiešanými jazykmi. Zlepšujeme používateľský zážitok tým, že ponúkame prispôsobiteľné hlasové štýly pre rôzne jazyky. Integrovali sme tiež aliasy TTS, ktoré umožňujú používateľom definovať vlastné pravidlá pre to, ako sa určité slová alebo frázy vykresľujú v zvuku – napríklad nahradenie konkrétnych výrazov na dosiahnutie presnejšej výslovnosti alebo frázovania. Aby sme držali krok s neurónovou hlasovou technológiou, neustále vyhodnocujeme a integrujeme najnovšie pokroky, spolupracujeme s lídrami v odvetví a plánujeme v budúcnosti vyvíjať vlastné modely, aby sme zabezpečili, že GSpeech zostane v popredí inovácií v oblasti hlasovej syntézy.

Aké dôležité je pre vašich používateľov ladenie hlasu, ovládanie výšky tónu a prispôsobenie prehrávania – a v akom prípade použitia ste najviac hrdí, kde tieto funkcie skutočne vynikajú?

Ladenie hlasu, ovládanie výšky tónu a prispôsobenie prehrávania sú pre našich používateľov kľúčové, pretože im umožňujú vytvárať jedinečné, vysokokvalitné hlasové štýly prispôsobené ich špecifickým potrebám, od spravodajských a blogových webových stránok až po prístupný e-learningový obsah. Prebiehajúca integrácia viac ako 100 nových hlasových vibrácií to ešte viac umocňuje a ponúka používateľom bezkonkurenčnú flexibilitu pri vytváraní skutočne charakteristických dabingov. Najviac som hrdý na GSpeech Studio, novú platformu na úpravu a generovanie zvuku, ktorú vyvíjam. Umožňuje používateľom vytvárať viacero zvukových kanálov, miešať ich s hudbou na pozadí a exportovať vylepšené dabingy, čo tvorcom umožňuje vytvárať zvuk profesionálnej kvality pre rôzne aplikácie. List zrakovo postihnutého študenta, v ktorom ďakuje spoločnosti GSpeech za umožnenie samostatného štúdia prostredníctvom prispôsobeného zvuku, sa ma hlboko dotkol. Tento prípad použitia ukazuje, ako tieto funkcie robia obsah prístupným a transformačným, čo je cieľ, ktorý sledujem od svojich začiatkov programovania.

GSpeech ponúka bezproblémovú integráciu s WordPressom, Shopify, Wixom a ďalšími. Aká bola vaša stratégia, aby sa platforma stala plug-and-play pre tvorcov a firmy v rôznych ekosystémoch?

Naša stratégia pre plug-and-play integrácie GSpeech s platformami ako WordPress, Shopify a Wix sa zamerala na jednoduchosť, kompatibilitu a škálovateľnosť. Vyvinuli sme ľahké, modulárne pluginy a úryvky kódu, ktoré sa bezproblémovo integrujú a vyžadujú minimálne nastavenie – často len niekoľko kliknutí. To znamená, že tisíce článkov a dynamických blokov obsahu môžu okamžite získať hlasovú podporu – bez manuálnej námahy. Ponúkame vysoko flexibilné, krásne navrhnuté prehrávače, ktoré sa prispôsobujú rôznym zariadeniam vrátane mobilných telefónov, tabletov a stolových počítačov. Naše prehrávače sú nielen prispôsobiteľné, ale aj optimalizované pre prístupnosť a zapojenie používateľov. Pre WordPress sme vložili cloudový dashboard GSpeech priamo do administračného panela prostredníctvom nášho pluginu, čím sme zjednodušili správu pre používateľov. Podrobná dokumentácia a intuitívne dashboardy sprevádzajú netechnických používateľov inštaláciou a prispôsobením. Pravidelné testovanie zaisťuje konzistentný výkon v rôznych ekosystémoch a umožňuje tvorcom a firmám bez námahy pridávať prevod textu na reč s umelou inteligenciou.

Pri spätnom pohľade na cestu od roku 2012 až po súčasnosť, čo bolo pre vás osobne alebo profesionálne najväčším míľnikom pri budovaní GSpeech?

Najväčším míľnikom pre GSpeech bolo vygenerovanie 1 miliardy znakov vysokokvalitného zvuku s umelou inteligenciou, čo demonštrovalo náš globálny vplyv na prístupnosť. Rovnako významná bola spätná väzba, ktorú sme dostali od organizácií ako Humanity Union, ktoré chválili GSpeech za vylepšenie ich platformy spoločenskej zodpovednosti, a od majiteľov blogov, ktorí ho označili za „prelomový“ v oblasti zapojenia používateľov. Viac ako 110 päťhviezdičkových recenzií na rôznych platformách ako WordPress a AppSumo v posledných mesiacoch odrážajú túto rastúcu dôveru.

GSpeech teraz aktívne využívajú aj Regionálne štatistické oddelenie Namanganu v Uzbekistane — vládna inštitúcia s významnou návštevnosťou a viditeľnosťou na národnej úrovni. To, že verejný orgán tak široko prijal našu technológiu, bolo významným míľnikom a silným znakom dôvery v naše riešenie.

Ako kresťan a niekto, kto slúži v arménskej cirkvi, sa snažím podporovať aj iné iniciatívy založené na viere, kedykoľvek je to možné. Často ponúkam GSpeech bezplatne kresťanským webovým stránkam, aby som im pomohol efektívnejšie šíriť ich posolstvo a sprístupniť Písmo prostredníctvom zvuku. Je to môj malý príspevok k niečomu väčšiemu. Zároveň je mi cťou spolupracovať s oddanými službami, ako je The Cord — mesiášsky zbor a vážený klient GSpeech — ktorého poslanie a obsah odrážajú silu Písma v praxi.

Tieto momenty – keď sa technológia stane mostom k viere, porozumeniu a inklúzii – mi pripomínajú, prečo sme vôbec vytvorili GSpeech.

Akú úlohu podľa vás zohráva GSpeech v budúcnosti digitálnych médií, najmä s rastúcou dominantnosťou zvukového obsahu a hlasových rozhraní?

Predstavujem si GSpeech ako lídra v oblasti sprístupnenia a pútavosti digitálnych médií tým, že umožní hlasový prístup k webu s využitím umelej inteligencie. Naším cieľom je transformovať celý online zážitok tak, aby sa webové stránky stali prirodzene interaktívnymi, inkluzívnymi a štandardne viacjazyčnými. Jediným riadkom kódu môžu majitelia stránok premeniť tisíce článkov na hlasový obsah. S výhľadom do budúcnosti vyvíjame GSpeech Studio na výkonnú a jedinečnú platformu na generovanie a úpravu zvuku, ktorá používateľom umožní vytvárať viacvrstvový hlasový obsah s hudbou na pozadí, efektmi a presným ladením. Chceme, aby bol web skutočne počuteľný, intuitívny a univerzálne prístupný.

GSpeech bol nedávno spustený na AppSumo a už získala takmer perfektné hodnotenie od prvých používateľov. Čo pre vás znamenala reakcia komunity AppSumo a ako plánujete na túto dynamiku stavať v budúcnosti?

Spustenie aplikácie AppSumo predstavilo GSpeech miliónom ľudí a jeho takmer dokonalé hodnotenie je neuveriteľne povzbudzujúce. Používatelia, ako napríklad tí, ktorí prevádzkujú online kurzy, chvália naše intuitívne nástroje a responzívnu podporu, čím sa stotožňujú so spätnou väzbou od Humanity Union. Majiteľ blogu nazval naše hlasy „skutočne pútavými“ a preklady „pôsobivými“. Ich pozitívna spätná väzba potvrdzuje hodnotu nášho riešenia prevodu textu na reč s umelou inteligenciou a podnecuje moju vášeň pre tento projekt. Podpora klientov počas spustenia tiež podnietila nové nápady, najmä pre GSpeech Studio, ktoré bolo inšpirované požiadavkami používateľov na pokročilé funkcie úpravy a exportu zvuku. V budúcnosti plánujem na tomto trende stavať aktívnym počúvaním našej komunity, integráciou ich spätnej väzby a vývojom inovatívnych funkcií na zlepšenie dostupnosti a zapojenia, čím zabezpečím, aby sa GSpeech naďalej vyvíjal ako transformačný nástroj pre tvorcov a firmy.

Na záver, akú radu by ste dali mladým vývojárom alebo podnikateľom, ktorí chcú v dnešnom rýchlo sa rozvíjajúcom technologickom svete vytvárať prístupné nástroje založené na umelej inteligencii?

Mladým vývojárom a podnikateľom radím, aby do svojej práce vložili srdce a identifikovali skutočný problém, pri ktorom môžete ponúknuť jedinečné a inteligentné riešenie. Začnite v malom, robte si pevné kroky vpred a pozorne počúvajte spätnú väzbu od zákazníkov – tá vás povedie. Správajte sa k svojim používateľom ako k dôveryhodným priateľom, vydajte zo seba všetko a buďte trpezliví. Prijmite technológie umelej inteligencie ako silných spojencov; ak sa používajú rozumne, zosilňujú vašu schopnosť vytvárať účinné a dostupné nástroje. Budujte s vášňou, vytrvalosťou a záväzkom zmeniť veci k lepšiemu a vytvoríte riešenia, na ktorých skutočne záleží.

Ďakujem Antoine Tardif pre rozhovor. Celý rozhovor si môžete prečítať tu: zjednotiť.ai.

🎬 Videá

🎬 GSpeech - Videoprehliadka
🎬 Objavte GSpeech: Transformujte text na zvuk pomocou umelej inteligencie!
Posuňte svoj obsah na ďalšiu úroveň! Vyskúšajte GSpeech teraz!
Získajte GSpeech