Възходът на AI разпалва глобална битка за данни

Не беше отдавна времето, когато много анализатори се притесняваха дали изкуственият интелект ще доведе до кончината на софтуерния гигант Adobe, който произвежда софтуер за рисуване, обработка на снимки, чертежи, презентации и други творчески дейности.

Новите инструменти, като DALL-E 2 и Midjourney, които създават картини на базата на текст, изглеждат почти готови да заместят софтуерните продукти за редактиране и създаване на изображения.

През април тази година финансовият сайт Seeking Alpha публикува анализ със заглавие "Дали AI е убиецът на Adobe?"

Вместо да умре обаче, Adobe използва своята база данни от стотици милиони стокови снимки, за да изгради свой собствен пакет от AI инструменти, наречен Firefly.

От пускането му на пазара през март софтуерът е използван за създаване на над 1 милиард изображения, според изпълнителния директор на компанията Дана Рао.

Като избягва "копаенето" на изображения от интернет, както правят много от нейните конкуренти, Adobe си спестява задълбочаващите се спорове за авторските права, които напоследък тормозят индустрията, пише The Economist.

Цената на акциите на фирмата се е повишила с 36% след стартирането на Firefly.

Триумфът на Adobe над мрачните предсказания хвърля светлина върху по-широката картина на глобалната надпревара за господство на бързо развиващия се пазар за AI инструменти.

Мащабните модели, захранващи най-новата вълна на т. нар. „генеративен“ AI, разчитат на огромни количества данни.

След като вече са си помогнали с ресурси от (често използвани без разрешение), създателите на AI модели сега търсят нови източници на данни, за да поддържат мащабния растеж на продуктите си.

Междувременно, компаниите, притежаващи огромни запаси от данни, обмислят как могат най-добре да спечелят от тях.

Двете основни съставки за един AI модел са наборът от данни, чрез които системата се обучава, и процесорната мощ, даваща възможност за откриване на връзките между тях.

Тези две съставки са, до известна степен, взаимозаменяеми - моделът може да бъде подобрен или чрез поглъщане на повече данни, или чрез добавяне на повече процесорна мощност.

Последното обаче става все по-трудно на фона на недостига на специализирани AI чипове, което кара създателите на модели за изкуствен интелект да се фокусират още повече върху търсенето на данни.

То нараства толкова бързо, че запасите от висококачествен текст, наличен за обучение, може да бъдат изчерпани до 2026 г., смята изследователската организация Epoch AI.

Експертите са на мнение, че най-новите модели на Google и Meta са били обучени на над 1 трлн думи. За сравнение, общият сбор от английски думи в онлайн енциклопедията Wikipedia е около 4 милиарда.

Как изкуственият интелект разрушава интернет?

Количество или качество

Не само размерът на набора от данни е от значение. Колкото по-добри са те, толкова по-качествен е самият модел. Базираните на текст модели са идеално обучени на дългосрочно, добре написано, фактически точно писане, отбелязва Ръсел Каплан от стартъпа Scale AI.

Моделите, които получават тази информация, са по-склонни да произвеждат висококачествена продукция. По същия начин чатботовете с изкуствен интелект дават по-добри отговори, когато са помолени да обяснят своята работа стъпка по стъпка, увеличавайки търсенето на по-точни източници.

Специализираните набори от информация също се ценят, тъй като позволяват моделите да бъдат „фино настроени“ за по-нишови приложения.

Покупката на хранилището за софтуерен код GitHub от Microsoft за 7.5 милиарда долара през 2018 г. помогна на компанията да разработи инструмент за изкуствен интелект за писане на код.

Тъй като търсенето на данни нараства, достъпът до тях става все по-сложен, като създателите на съдържание сега изискват компенсация за всеки материал, използван от AI модели.

Редица дела за нарушаване на авторски права вече са заведени срещу производители на модели за изкуствен интелект в САЩ.

Група автори, сред които е и комикът Сара Силвърман, съдят Meta и OpenAI, създател на ChatGPT. Група художници по подобен начин съдят Stability AI и Midjourney, който изгражда инструменти за създаване на изображения от текст.

Сделки за данни

Резултатът от всичко това е вълна от сключване на сделки, докато компаниите за изкуствен интелект се надпреварват да си осигурят източници на данни.

През юли OpenAI подписа сделка с информационната агенция Associated Press за достъп до нейния архив. Освен това компанията наскоро разшири споразумението със Shutterstock - доставчик на стокова фотография, с когото Meta също има сделка.

На 8 август беше съобщено, че Google обсъжда със звукозаписния лейбъл Universal Music споразумение за лицензиране на гласове на изпълнители за захранване на AI инструмент за писане на песни.

Компанията за управление на активи Fidelity обяви, че е била потърсена от технологични фирми с искане за достъп до нейните финансови данни.

Носят се слухове за това, че лабораториите за изкуствен интелект се обръщат към британската обществена телевизия BBC за достъп до нейния архив от изображения и филми. Друга предполагаема цел е JSTOR - цифрова библиотека от академични списания.

Притежателите на информация се възползват от по-голямата си сила за договаряне. Форумите Reddit и Stack Overflow, популярни сред програмистите, увеличиха цената на достъпа до техните данни.

И двата уебсайта са особено ценни, защото потребителите гласуват "за" предпочитаните отговори, помагайки на моделите да разберат кои са най-подходящи.

Социалната мрежа X, известна до скоро като Twitter, въведе мерки за ограничаване на способността на ботовете да "претъсрват" съдържанието ѝ и сега таксува всеки, който желае да получи достъп до специализирани масиви от данни.

Собственикът на компанията Илон Мъск планира да изгради свой собствен бизнес с изкуствен интелект, използвайки тези данни.

Данните са новата валута. Защо това е проблем за потребителите?

Как данните стават по-добри?

В резултат на това създателите на AI модели работят усилено, за да подобрят качеството на входните данни, които вече имат. Много лаборатории за изкуствен интелект използват цели армии от анализатори на данни за изпълнение на задачи, като етикетиране на изображения и оценка на отговорите.

Част от тази работа е сложна, а кандидатите, които се търсят, са с магистърска или докторска степен на образование. Но голяма част от задачите са по-обикновени и се възлагат на места, като Кения, където работната ръка е евтина.

Фирмите за изкуствен интелект събират данни и чрез взаимодействията на потребителите с техните инструменти. Много от тях имат някаква форма на механизъм за обратна връзка, в която потребителите посочват кои резултати са полезни.

Генераторът на изображения от текст Firefly позволява на потребителите да избират една от общо четири предложени опции. Bard - чатботът на Google, по подобен начин предлага три отговора.

Потребителите могат да дават на ChatGPT палец нагоре или палец надолу, когато отговаря на запитванията им. Тази информация може да бъде върната към основния модел, образувайки това, което Дуе Киела, съосновател на Contextual AI, нарича „маховик на данните“.

Още по-силен сигнал за качеството на отговорите на чатбота е дали потребителите копират текста и го поставят на друго място, добавя той. Анализирането на такава информация помогна на Google бързо да подобри своя инструментите си за превод.

Изкуственият интелект ще бъде най-големият балон на всички времена.

Разширяване на границата

Има обаче един източник на данни, който остава до голяма степен неизползван - информацията, която съществува в офисите на корпоративните клиенти на технологичните фирми.

Много компании притежават, често несъзнателно, огромни количества полезни данни - от записи от кол центрове до фактури за разходите на клиентите им. Такава информация е особено ценна, защото може да се използва за фина настройка на моделите за специфични бизнес цели.

Например, тя може да помогне на работниците в кол центъра да отговарят по-адекватно на клиентските запитвания или на бизнес анализаторите да намерят начини за увеличаване на продажбите.

Използването на този богат ресурс обаче не винаги е лесно. Рой Сингх от консултантската компания Bain отбелязва, че повечето фирми не обръщат сериозно внимание на огромните, но неструктурирани масиви от данни, които биха се оказали най-полезни за обучение на инструменти за AI.

Често те са разпръснати в множество системи или са заровени във фирмените сървъри, а не в "облака".

Отключването на тази информация ще помогне на компаниите да персонализират AI инструментите, за да обслужват по-добре специфичните си нужди.

Amazon и Microsoft сега предлагат инструменти, които да помогнат на компаниите да управляват по-добре своите неструктурирани набори от данни, като същото се опитва да прави и Google.

По всичко личи, че глобалната битка за данни едва сега започва, пише още The Economist.

Новините на Darik Business Review във Facebook , Instagram , LinkedIn и Twitter !