Симон Погосян е основател и изпълнителен директор на GSpeech, уеб-базирана платформа с изкуствен интелект, която помага за по-достъпно онлайн съдържание, като преобразува текст в естествено звучащ звук на над 70 езика. С опит в VLSI дизайна и силен интерес към програмирането и потребителското изживяване, Саймън създаде GSpeech, за да опрости начина, по който уебсайтовете могат да предлагат гласово активирано съдържание.
Днес GSpeech генерира около 200 милиона знака аудио всеки месец и се използва в над 70 държави, като неговите персонализируеми аудио плейъри обслужват над 200,000 1 възпроизвеждания месечно. След като наскоро надхвърли общо XNUMX милиард знака генерирано аудио, GSpeech продължава да се развива бързо. Платформата е проектирана да бъде лесна за интегриране – изисква само един ред код – и помага на създателите, преподавателите и бизнеса да направят съдържанието си по-приобщаващо и ангажиращо.
Вашият опит в VLSI дизайна (много мащабна интеграция) и ранният ви опит в програмирането положиха солидна техническа основа. Какво вдъхнови преминаването ви от микроелектроника към изграждане на софтуер, задвижван от изкуствен интелект, и как това доведе до създаването на GSpeech?
Страстта ми към решаването на проблеми започна в гимназията, водена от любов към математиката и физиката. Този интерес ме доведе до бакалавърска (2009 г.) и магистърска (2011 г.) степен по VLSI дизайн от Държавния инженерен университет на Армения, в сътрудничество със Synopsys Armenia. Изучаването на физика ме обучи на прецизност и аналитично мислене, но едва през втората ми година открих програмирането – започвайки с езика Pascal – и веднага се влюбих в него. С приятеля ми изпълнявахме курсови работи веднага щом ги получавахме, въпреки че имахме шест месеца до края. След това, за забавление, започнахме да изпълняваме задачите на други студенти.
Тази страст ме насочи по-дълбоко към разработването на софтуер. Започнах със създаване на уебсайтове, след което изградих собствена CMS. След като завърших няколко проекта в областта на автоматизацията на процеси и проектирането на архитектури за управление на данни, осъзнах колко много обичам да изграждам дигитални решения за уеб интерфейси. Чрез проекта 2GLux си сътрудничих с Едвард Ананян — създател на популярния GTranslate преводаческа услуга и приятел от училище от гимназия „Квантум“. Той ме запозна с екосистемите на WordPress и Joomla и концепцията за GSpeech възникнала от него. Тази ранна работа доведе до първата версия на нашия инструмент, позволяваща на потребителите да слушат текст на уеб страница, посявайки семената за това, което по-късно ще се превърне в пълнофункционална платформа с изкуствен интелект. До 2023 г. създадох Smarts Club LLC да се мащабира GSpeech в глобално AI аудио решение, поддържащо над 70 езика. Humanity UnionПохвалата на [име на автора] за ролята на GSpeech в подобряването на достъпността на платформата им за гражданско участие отразява моята мисия да преодолея цифровите разделения чрез изкуствен интелект - визия, вкоренена в ранните ми дни на програмиране.
GSpeech първоначално е създаден като инструмент за поддръжка на потребители с увредено зрение. Как тази ранна мисия е повлияла на еволюцията на платформата в пълнофункционално решение за преобразуване на текст в реч с изкуствен интелект?
Фокусът върху достъпността доведе до разработването на висококачествено аудио в реално време с изкуствен интелект, превод на над 70 езика и безпроблемна интеграция с уебсайтове чрез прост фрагмент от код. Тази мисия доведе до функции като персонализируеми аудио плейъри, панели за избор на език и глас, възпроизвеждане в зависимост от контекста, изтегляния на аудио и подробна статистика за употреба – включително данни за държава, град, устройство и анализи на възпроизвеждането във времето – всички предназначени да направят съдържанието по-приобщаващо и ангажиращо. След като написах над 100,000 2023 реда код, през XNUMX г. стартирах GSpeech Cloud Console – мащабируемо решение, което балансира приобщаването с разширена функционалност, давайки възможност на бизнеса и създателите да направят съдържанието си достъпно, многоезично и интерактивно в мрежата.
Кои бяха някои от най-големите технически предизвикателства, с които се сблъскахте по време на разработването на GSpeech Cloud Console?
Едно от най-големите предизвикателства при разработването на GSpeech Cloud Console беше проектирането на мащабируема архитектура за генериране на висококачествен, сигурен и изкуствен интелект звук в реално време. Това изискваше иновативни решения за извличане на подходящо съдържание от мрежата, обработка на аудио на нашите сървъри и съхраняването му в облака за бърза и надеждна доставка. Внедряването на надеждни мерки за сигурност, като криптиране и контрол на достъпа, беше от решаващо значение за защитата на динамичното, генерирано от потребителите съдържание.
Друго препятствие беше осигуряването на превод в реално време с помощта на усъвършенствани невронни двигатели. Трябваше да осигурим точни преводи с ниска латентност, като същевременно изградим интуитивен интерфейс, който позволява на потребителите да избират езици и предпочитани гласови профили за възпроизвеждане, като приоритизираме комфорта и персонализацията. Накрая разработихме помощник за създаване на аудио шаблони с множество персонализируеми изгледи на плейъри, позволявайки на потребителите да проектират уникални, визуално привлекателни плейъри, съобразени с техните уебсайтове. Балансирането между гъвкавост, производителност и лекота на използване на различни устройства беше възнаграждаващо предизвикателство.
С превод в реално време на над 70 езика и над 230 естествено звучащи гласа. Как гарантирате качеството на гласа и поддържате точност в такъв разнообразен езиков набор?
За да поддържаме постоянно качество на гласа, ние интегрираме множество усъвършенствани модели за преобразуване на текст в реч (TTS), които непрекъснато се оптимизират и актуализират. Тези многоезични двигатели обработват съдържание на различни езици с висока точност. Също така въвеждаме над 100 нови гласови вибрации, за да предоставим на потребителите още по-изразителни и естествено звучащи опции. Всеки месец GSpeech генерира над 200 милиона знака аудио, обслужвайки потребители в повече от 70 държави, като нашите онлайн плейъри се използват над 200,000 XNUMX пъти месечно – и броят им расте. Този мащаб осигурява постоянна обратна връзка и тестове в реални условия, което директно информира нашите настройки и контрол на качеството.
Можете ли да ни разкажете как GSpeech използва изкуствен интелект и машинно обучение, за да осигури реалистичен гласов синтез? Как успявате да сте в крак с бързия напредък в невронните гласови технологии?
GSpeech използва усъвършенстван изкуствен интелект и машинно обучение, интегрирайки множество авангардни модели за преобразуване на текст в реч, за да създаде реалистичен гласов синтез. Тези модели, оптимизирани за естественост и многоезична поддръжка, обработват текстови входове, за да генерират висококачествен звук с реалистична интонация и ритъм, дори за съдържание на различни езици. Ние подобряваме потребителското изживяване, като предлагаме персонализируеми гласови стилове за различни езици. Интегрирахме и TTS псевдоними, които позволяват на потребителите да дефинират персонализирани правила за това как определени думи или фрази се изобразяват в аудиото - например, замествайки конкретни термини, за да се постигне по-точно произношение или фразиране. За да сме в крак с невронната гласова технология, ние непрекъснато оценяваме и интегрираме най-новите постижения, сътрудничим си с лидери в индустрията и планираме да разработваме собствени модели в бъдеще, като гарантираме, че GSpeech ще остане начело на иновациите в гласовия синтез.
Колко важни са настройката на гласа, контролът на височината на тона и персонализирането на възпроизвеждането за вашите потребители – и кой е случаят на употреба, с който се гордеете най-много, където тези функции наистина блестят?
Настройката на гласа, контролът на височината на тона и персонализирането на възпроизвеждането са от решаващо значение за нашите потребители, позволявайки им да създават уникални, висококачествени гласови стилове, съобразени със специфичните им нужди, от новинарски и блог уебсайтове до достъпно съдържание за електронно обучение. Текущата интеграция на над 100 нови гласови вибрации допълнително засилва това, предлагайки на потребителите несравнима гъвкавост за създаване на наистина отличителни озвучавания. Най-много се гордея с GSpeech Studio, нова платформа за редактиране и генериране на аудио, която разработвам. Тя позволява на потребителите да създават множество аудио канали, да ги смесват с фонова музика и да експортират изпипани озвучавания, давайки възможност на създателите да създават аудио с професионално качество за разнообразни приложения. Писмото на студент с увредено зрение, в което благодари на GSpeech за това, че е позволил самостоятелно обучение чрез персонализирано аудио, ме трогна дълбоко. Този случай на употреба показва как тези функции правят съдържанието достъпно и трансформиращо, цел, която преследвам от ранните си дни в програмирането.
GSpeech предлага безпроблемни интеграции с WordPress, Shopify, Wix и други. Каква е била вашата стратегия, за да направите платформата plug-and-play за създатели и бизнеси в различни екосистеми?
Нашата стратегия за plug-and-play интеграции на GSpeech с платформи като WordPress, Shopify и Wix се фокусира върху простотата, съвместимостта и мащабируемостта. Разработихме леки, модулни плъгини и фрагменти от код, които се интегрират безпроблемно, изисквайки минимална настройка - често само с няколко кликвания. Това означава, че хиляди статии и динамични блокове със съдържание могат незабавно да получат гласова поддръжка - без ръчни усилия. Ние предлагаме изключително гъвкави, красиво проектирани плейъри, които се адаптират към различни устройства, включително мобилни телефони, таблети и настолни компютри. Нашите плейъри са не само персонализируеми, но и оптимизирани за достъпност и ангажираност на потребителите. За WordPress вградихме облачното табло за управление на GSpeech директно в администраторския панел чрез нашия плъгин, рационализирайки управлението за потребителите. Подробната документация и интуитивните табла за управление насочват нетехническите потребители през инсталирането и персонализирането. Редовното тестване осигурява постоянна производителност в различни екосистеми, давайки възможност на създателите и бизнеса да добавят без усилие задвижвани от изкуствен интелект функции за преобразуване на текст в реч.
Като погледнете назад към пътя от 2012 г. до днес, кой е бил най-важният етап за вас лично или професионално в изграждането на GSpeech?
Най-важното постижение за GSpeech беше генерирането на 1 милиард знака висококачествено аудио с изкуствен интелект, демонстрирайки нашето глобално въздействие върху достъпността. Също толкова значима беше обратната връзка, която получихме от организации като Humanity Union, които похвалиха GSpeech за подобряването на платформата им за социална отговорност, и от собственици на блогове, които я нарекоха „променяща играта“ по отношение на ангажираността на потребителите. Над 110 петзвездни отзива в платформи като WordPress намлява AppSumo през последните месеци отразяват това нарастващо доверие.
GSpeech вече се използва активно и от Регионален статистически отдел на Наманган в Узбекистан — правителствена институция със значителен трафик и видимост на национално ниво. Виждането на толкова широкото внедряване на нашата технология от публичен орган е значим етап и силен знак за доверие в нашето решение.
Като християнин и човек, който служи в Арменската църква, аз също се опитвам да подкрепям други религиозни инициативи, когато е възможно. Често предлагам GSpeech безплатно на християнски уебсайтове, като начин да помогна за по-ефективното разпространение на посланието им и да направя Писанието по-достъпно чрез аудио. Това е моят малък принос към нещо по-голямо. В същото време за мен е чест да работя с всеотдайни служения като Кабелът — месианска конгрегация и ценен клиент на GSpeech — чиято мисия и съдържание отразяват силата на Писанието в действие.
Тези моменти – когато технологиите се превръщат в мост към вярата, разбирателството и приобщаването – ми напомнят защо изобщо създадохме GSpeech.
Каква роля според вас ще играе GSpeech в бъдещето на дигиталните медии, особено с нарастването на доминирането на аудио съдържанието и гласовите интерфейси?
Виждам GSpeech като лидер в това да направи дигиталните медии по-достъпни и ангажиращи, като осигурим гласов достъп до мрежата, задвижван от изкуствен интелект. Нашата цел е да трансформираме цялото онлайн изживяване, така че уебсайтовете да станат естествено интерактивни с глас, приобщаващи и многоезични по подразбиране. Само с един ред код собствениците на сайтове могат да превърнат хиляди статии в озвучавано съдържание. С поглед към бъдещето, ние разработваме GSpeech Studio в мощна и уникална платформа за генериране и редактиране на аудио, която ще позволи на потребителите да създават многопластово гласово съдържание с фонова музика, ефекти и прецизна настройка. Искаме да направим мрежата наистина чуваема, интуитивна и универсално достъпна.
GSpeech наскоро беше пуснат в AppSumo и вече е получила почти перфектна оценка от ранните потребители. Какво означава за вас откликът от общността на AppSumo и как планирате да надграждате върху този импулс занапред?
Стартирането на AppSumo представи GSpeech на милиони хора, а почти перфектната му оценка е невероятно потвърждаваща. Потребителите, като тези, които провеждат онлайн курсове, хвалят нашите интуитивни инструменти и бърза поддръжка, повтаряйки обратната връзка от Humanity Union. Собственик на блог нарече нашите гласове „истински ангажиращи“ и преводите „впечатляващи“. Положителната им обратна връзка потвърждава стойността на нашето решение за преобразуване на текст в реч, задвижвано от изкуствен интелект, и подхранва страстта ми към проекта. Подкрепата на клиентите по време на старта също така предизвика нови идеи, особено за GSpeech Studio, което беше вдъхновено от потребителските заявки за разширени функции за редактиране и експортиране на аудио. В бъдеще планирам да надграждам върху този импулс, като активно слушам нашата общност, интегрирам тяхната обратна връзка и разработвам иновативни функции за подобряване на достъпността и ангажираността, като гарантирам, че GSpeech ще продължи да се развива като трансформиращ инструмент за творци и бизнеси.
И накрая, какъв съвет бихте дали на млади разработчици или предприемачи, които искат да създадат достъпни инструменти, задвижвани от изкуствен интелект, в днешния бързо развиващ се технологичен пейзаж?
Към младите разработчици и предприемачи, моят съвет е да вложат сърцето си в работата си и да идентифицират реален проблем, за който могат да предложат уникално и интелигентно решение. Започнете с малко, правете постоянни стъпки напред и слушайте внимателно обратната връзка от клиентите – те ще ви водят по пътя. Отнасяйте се с потребителите си като с доверени приятели, дайте всичко от себе си и бъдете търпеливи. Приемете технологиите с изкуствен интелект като мощни съюзници; когато се използват разумно, те усилват способността ви да създавате въздействащи и достъпни инструменти. Изграждайте със страст, постоянство и ангажимент да променяте нещата към по-добро и ще създадете решения, които наистина имат значение.
Благодаря ви за Антоан Тардиф за интервюто. Можете да прочетете пълното интервю тук: обединявам.ai.