Филмите с дублаж в Полша са ужасни. Един единствен дублиращ чете всички диалози с омаломощена славянска монотонност.

Няма актьорски състав. Няма вариации между говорещите. Младата публика ги мрази.

„Попитайте всеки поляк и той ще ви каже, че е ужасно“, казва Матеуш (Мати) Станишевски, съосновател на компанията за изкуствен интелект ElevenLabs.

„Предполагам, че това е било нещо комунистическо, което се е запазило като евтин начин за създаване на съдържание.“

Докато работи в Palantir, Станишевски и неговият приятел от гимназията и инженер в Google Пьотр Дабковски започват да експериментират с изкуствен интелект.

Двамата осъзнават, че един проект, особено обещаващ треньор по публична реч с изкуствен интелект, може да сложи край на уникалния полски ужас от това гласовете на Леонардо ди Каприо или Скарлет Йохансон да бъдат дублирани от „звезда“ като Мачей Гудовски.

Двамата обединяват спестяванията си и до май 2022 г. напускат работа, за да се съсредоточат изцяло върху ElevenLabs. Още от самото начало новият им генератор за преобразуване на текст в реч с изкуствен интелект е много по-добър от роботизираните гласове на Siri на Apple и Alexa на Amazon.

Гласовете с изкуствен интелект на ElevenLabs са способни да пресъздават щастие, вълнение и дори смях.

През януари 2023 г. ElevenLabs пуска първия си модел. Той може да вземе произволен текст и да използва изкуствен интелект, за да го прочете с произволен глас – включително клонинг на вашия собствен (или, което е обезпокоително, на някой друг).

Търсенето нараства незабавно. Авторите можеха незабавно да създават аудиокниги със софтуера (цените за професионалисти сега започват от 99 долара на месец за по-високо качество и повече време).

Създателите на видеоклипове в YouTube използваха ElevenLabs, за да превеждат видеоклиповете си на други езици (моделите му вече могат да говорят на 29 езика).

Стартъпът, базиран във Варшава и Лондон, сключи сделки с приложения за изучаване на езици и медитация; след това медийни компании, като HarperCollins и германската Bertelsmann, се включиха.

„Беше очевидно, че това е най-добрият модел и всички го избираха“, казва инвеститорът Дженифър Ли от компнаията за рисков капитал Andreessen Horowitz, която оглави рунд за набиране на финансиране на стойност 19 милиона долара през май 2023 г.

Година по-късно съоснователите бяха отличени като част от Forbes 30 под 30 за Европа.

Други обаче намират по-обезпокоителни приложения:

  • двойници, създадени с изкуствен интелект, на публични личности, като президента Доналд Тръмп, грубо разказващ дуели от видеоигри,
  • актрисата Ема Уотсън, която чете „Моята борба“,
  • подкастърът Джо Роган, рекламиращ измами, бързо придобиха голяма популярност.

Нещо повече, измамниците започнаха да използват инструменти за клониране с изкуствен интелект, за да се представят за гласовете на близки и да крадат милиони чрез сложни измами с дийпфейкове.

Гласът на изкуствения интелект

Нищо от това не спря рисковите капиталисти да наливат средства в компанията. ElevenLabs е набрала общо над 300 милиона долара финансиране, като през октомври оценката ѝ достигна 6.6 милиарда долара и я превърна в една от най-скъпите стартиращи компании в Европа.

30-годишният Станишевски, който действа като изпълнителен директор (в компанията няма традиционни длъжности) и 30-годишният ръководител на изследователския отдел Дабковски вече са милиардери, като състоянието на всеки от тях надхвърля 1 милиард долара, според оценки на Forbes.

Около половината от приходите на ElevenLabs от 193 милиона долара за последните 12 месеца идват от корпорации, като Cisco, Twilio и швейцарската агенция за набиране на персонал Adecco, които използват технологията, за да отговарят на обаждания за обслужване на клиенти или да интервюират търсещи работа.

Epic Games я използва, за да озвучава герои във Fortnite, в това число разговор с Дарт Вейдър (със съгласието на наследниците на Джеймс Ърл Джоунс). Другата половина от приходите идват от YouTuber-и, подкастъри и автори, които са от първите използващи технологията.

„Когато говорите с тях, е изумително колко са добри“, казва анализаторът на Gartner Том Кошоу. За разлика от повечето компании за изкуствен интелект, ElevenLabs е печеливша. Forbes изчислява, че е реализирала нетна печалба от 116 млн. долара през последните 12 месеца (марж от 60%).

Сега компанията се конкурира с гиганти, като Google, Microsoft, Amazon и OpenAI, за да се превърне в де факто гласа на изкуствения интелект. Това не е ново пространство: технологичните компании започнаха да разработват продукти за слушане, транскрибиране и генериране на реч преди около десетилетие.

Макар че това е донякъде странична дейност за Microsoft, Сатя Надела беше готов да плати 20 милиарда долара, за да купи листната на Nasdaq услуга компания за гласова транскрипция Nuance през март 2022 г. OpenAI пусна свой собствен гласов инструмент, който може да въвежда човешки разговори в ChatGPT, през октомври 2024 г.

Но екипът от 300 души на ElevenLabs не се опитва да навакса. Моделите им са толкова добри, че компанията в състояние да таксува до три пъти повече от тези американски конкуренти.

Библиотеката им от 10 000 гласа, звучащи зловещо човешки, е най-голямата досега и сега включва звезди, като Майкъл Кейн и Матю Макконъхи. Освен това е по-надеждна. Стартъп компанията за обучение с данни Labelbox тества шест от най-добрите гласови модели с тест за четене и установи, че ElevenLabs прави наполовина по-малко грешки от най-близкия си конкурент OpenAI.

„Ние сме една от малкото компании, които са пред OpenAI – не само по отношение на речта, но и по отношение на преобразуването на реч в текст и музика. Това е трудно“, казва Станишевски.

Рецептата на ElevenLabs е проста. Стегнат екип от изследователи в областта на машинното обучение, обсебени от един конкретен проблем, и ограничен бюджет доведоха до пробиви в моделите.

„Наличието на тонове изчисления може да бъде проклятие, защото не мислите как да решите проблема по интелигентен начин“, казва Дабковски.

Съдебен иск от двама разказвачи на аудиокниги обаче дава и друг привкус на тази история. Кариса Вакър и Марк Бойет твърдят, че ElevenLabs е използвала хиляди аудиокниги, защитени с авторски права, за да обучава своите модели.

Те твърдят, че толкова много от книгите им са били извлечени от интернет, че клонинги на гласовете им са се озовали като опции по подразбиране в ElevenLabs. Делото, в което ElevenLabs отрече да е извършила нарушение, беше уредено извънсъдебно през ноември.

Зрелостта настъпва. Компанията най-накрая състави списък с „неподходящи“ гласове (предимно политици и известни личности), след като клонинг на гласа на Джо Байдън, създаден от ElevenLabs, беше използван, за да се обезкуражи гласуването в кампания с роботизирани обаждания около предварителните избори на Демократическата партия през 2024 г.

ElevenLabs вече има седем щатни човешки модератори (плюс изкуствен интелект), които преглеждат клиповете ѝ за злоупотреба. Новоклонираните гласове трябва да преминат проверка за съгласие, а компанията предлага безплатен детектор за дийпфейкове.

Станишевски и Дабковски имат големи планове отвъд гласовите технологии. Създатели на съдържание с ограничени средства и медийните компании, които внимават с бюджетите си, искаха безплатна фонова музика, затова през август компанията пусна генератор на музика с изкуствен интелект.

Нямате време да заснемете видео? ElevenLabs ще разполага с аватари с изкуствен интелект, които да представят видеоклипове в стил Sora през следващата година. Най-смелият им залог е, че могат да пренесат експертния си опит, за да осигурят единен център за клиентите, където да управляват всичките си инструменти с изкуствен интелект.

„Изграждаме платформа, която ви позволява да създавате гласови агенти и да ги внедрявате безпроблемно“, казва Станишевски.

Разбира се, това поставя ElevenLabs на пътя за сблъсък с група други стартиращи компании, които се надяват да направят същото. От помощ е това, че компанията е печеливша от най-ранните си дни, но конкурентите ѝ сред стартиращите компании са сериозно финансирани, а технологичните гиганти разполагат с практически неограничени ресурси.

Въпреки това, компанията трябва да внедрява иновации. Гласовите модели скоро ще бъдат комерсиализирани. Когато други модели ги настигнат, непостоянните клиенти, които вече се противопоставят на цените на ElevenLabs, вероятно ще преминат към тях.

Тъй като разширява дейността си отвъд гласовите технологии към по-интензивна изчислителна мощност за музика и видео, ElevenLabs трябва да увеличи собствените си графични процесори, за да остане в надпреварата.

Компанията вече е похарчила 50 милиона долара за проект за център за данни в Орегон. „Ако искаме да се разрастваме, трябва да изградим мащаб и ние го правим“, казва Станишевски.

Обратно в Полша, застаряващият корпус от дублиращи филми все още е в бизнеса, засега. Дабковски не е забравил първоначалното предложение на ElevenLabs, като казва, че следващият му модел ще преведе и озвучи цял филм отведнъж.

„Никога не се отказваме от мисиите си“.