Стартъпът, който иска да превърне интернет в огромна база данни

Стартъп, наречен Exa, предлага ново приложение на генеративния изкуствен интелект Той използва технологията на големите езикови модели, за да върне списъци с резултати, за които твърди, че са по-адекватни от тези на конкурентите, включително Google и OpenAI. Целта е да се превърне огромната и хаотична плетеница от уеб страници в интернет в справочна таблица, където заявките връщат конкретни, точни резултати.

Exa вече предоставя своята търсачка като услуга за компании, които искат да изградят свои собствени приложения върху нея. Наскоро тя стартира и първата потребителска версия на тази търсачка, наречена Websets, съобщава онлайн изданието на Масачузетския технологичен институт MIT Technology Review.

"Мрежата е богата колекция от данни, но е бъркотия - тук има видеоклип на Джо Роугън, там има статия за Atlantic Airways. Няма организация. Мечтата ми е мрежата да се почувства като база данни“, казва съоснователят и главен изпълнителен директор на Exa Уил Брайк.

Websets е насочена към опитните потребители, търсещи неща, които другите търсачки не могат да открият, като например определени видове хора или компании. Ако я попитате за "стартъпи, които правят футуристичен хардуер", ще получите списък със стотици конкретни имена, вместо връзки към уеб страници, които споменават нещо по темата.

"Google не може да направи това. Има много ценни случаи на употреба за инвеститори или специалисти по подбор на персонал или наистина всеки, който иска някакъв набор от данни от мрежата“, казва Брайк.

През 2021 г. изследователи на Google обявиха, че проучват използването на големи езикови модели в нов вид търсачка. Идеята обаче скоро привлече и яростни критици, но технологичните компании ѝ обърнаха малко внимание. Три години по-късно гиганти като Google и Microsoft се борят с група от "новобранци", като Perplexity и OpenAI, която пусна ChatGPT Search през октомври и вече е част от тази "гореща" нова тенденция.

Кои са най-добрите държави за създаване на AI стартъпи?

Exa, поне засега, не се опитва да надмине никоя от тези компании. Вместо това тя предлага нещо ново. Повечето други фирми за търсене обгръщат големи езикови модели около съществуващите търсачки, като използват моделите, за да анализират заявката на потребителя и след това да обобщят резултатите. Но самите търсачки не са се променили много. Perplexity все още насочва своите заявки към Google Search или Bing, например. Днешните търсачки с изкуствен интелект са нещо като сандвичи с пресен хляб, но остаряла плънка.

Exa предоставя на потребителите познати списъци с връзки, но използва технологията на големите езикови модели, за да преоткрие начина, по който се извършва самото търсене. Google работи, като обхожда мрежата и изгражда огромен индекс от ключови думи, които след това се съпоставят със заявките на потребителите. Exa обхожда мрежата и кодира съдържанието на уеб страниците във формат, който може да се обработва от големи езикови модели.

Вграждането (т. нар. "embedding" от англ.) превръща думите в числа по такъв начин, че думите и фразите с подобни значения стават числа с подобни стойности. На практика това позволява на Exa да улавя значението на текста на уеб страниците, а не само ключовите думи.

Подходът на Exa обаче има и цена - кодирането на страници вместо индексирането на ключови думи е бавно и скъпо. До момента стартъпът е кодирал няколко милиарда уеб страници, казва Брайк, но това е "капка в морето" в сравнение с Google, която е индексирала около трилион.

Но според съоснователя на компанията това не е чак толкова голям проблем.

"Не е нужно да вграждате цялата мрежа, за да бъдете полезни“, казва той.

Освен това Websets връща резулатите от търсенията много бавно. Едно търсене понякога може да отнеме няколко минути. Но Брайк твърди, че си заслужава.

"Много от нашите клиенти започнаха да искат хиляди резултати, дори десетки хиляди. Те нямат нищо против да отидат и да изпият чаша кафе, докато стане готов огромния им списък“, казва той.

Андрю Гао, студент по компютърни науки в Станфордския университет, казва, че намирам Exa за най-полезна, когато не знае точно какво търси.

„Например, заявката „интересна публикация в блог за LLM във финансите“ работи по-добре на Exa, отколкото на Perplexity. Но те са добри в различни неща. Използвам и двете за различни цели“, казва той.

Брайк признава, че Exa е в процес на работа, като посочва и някои други нейни ограничения. Тя не е толкова добра, колкото конкурентните търсачки, ако просто искате да потърсите едно единствено "парче" информация, като името на гаджето на Тейлър Суифт.

Европа иска да изпрати центрове за данни в Космоса. Възможно ли е?

"Тя ще ви даде много хора с подобно звучене, но няма да се справи добре със съвпадението на точните ключови думи“, казва той.

Засега Exa заобикаля този проблем, като връща ключовите думи обратно в микса, когато са необходими. Брайк обаче е оптимист.

"Ние покриваме пропуските в метода на вграждане, докато той стане толкова добър, че вече не е необходимо да покриваме пропуските му“, обяснява експертът.

Новините на Darik Business Review във Facebook , Instagram , LinkedIn и Twitter !