Почти 200 000 книги се използват за обучение на системи с изкуствен интелект от някои от най-големите компании в областта на технологиите.

Проблемът? Никой не каза на авторите им.

Системата се нарича Books3, а според разследване на The Atlantic, наборът от данни се основава на колекция от пиратски електронни книги, обхващащи всички жанрове - от еротична фантастика до поезия.

Книгите помагат на генеративните AI системи да се научат как да предават информация, посочва CNN.

Някои учебни текстове за AI могат да бъдат извлечени от статии, публикувани в интернет, но висококачественият AI изисква висококачествен текст, за да усвои езика, според Atlantic. И именно тук се намесват книгите.

Books3 вече е обект на множество съдебни дела срещу Meta и други компании, използващи системата за обучение на AI.

Днес, благодарение на база данни, публикувана от The Atlantic миналата седмица, взета от Books3, авторите могат да видят дали техните книги конкретно се използват за обучение на тези AI системи. И мнозина не са доволни.

Нора Робъртс - плодотворният писател на романтични романи, има 206 книги, използвани в базата данни Books3, според The Atlantic. Този брой е най-високият на жив автор и втори след Уилям Шекспир. Тя нарича базата данни и нейното използване от технологични компании „всякаква грешка“.

„Ние сме човешки същества, ние сме писатели и сме експлоатирани от хора, които искат да използват нашата работа, отново без разрешение или компенсация, за да „пишат“ книги, сценарии, есета, защото е евтино и лесно“, казва Робъртс в изявление пред CNN.

Новината не шокира автора Ник Шарма, чиято готварска книга „Сезонът“ е открита в базата данни. „Ужасен съм, но не съм изненадан, че се възползват от мен“, казва той. „Дори не бях помолен за разрешение и не получих компенсация за използването на моята работа за обучение на AI.“

AI е неизбежен, казва Шарма, откъдето идва и липсата му на изненада. Най-утежняващото, според него, е, че никой не го е потърсил за разрешение или компенсация. В крайна сметка, образованието не е безплатно в САЩ, допълва авторът, на учителите се плаща, а учебниците се купуват.

Meta, която използва базата данни Books3, според The Atlantic, не отговаря на искането за коментар.

Говорител на Bloomberg отбелязва, че компанията е „използвала редица различни източници на данни“, включително Books3, за да обучи своя BloombergGPT.

Но, според говорителя, Bloomberg „няма да включи набора от данни Books3 сред източниците, използвани за обучение на бъдещи комерсиални версии на BloombergGPT“.

Не всеки автор е разстроен от проблема. Джеймс Чапъл, чиято академична книга за съвременната католическа църква е използвана в базата данни, казва, че това „изобщо не го интересува“. „Искам книгата ми да бъде прочетена!“ пише той. „Искам да образова!“

AI се е превърнал в значителна грижа за много автори. Гилдията на писателите на Америка обяви стачка това лято, отчасти за да поиска ограничения върху използването на AI при създаването на филми и телевизионни предавания.

По-специално, ChatGPT се използва за всичко - от писмени задачи до правни справки.

Писателите не са сами в притесненията си. Визуалните артисти бяха в същата ситуация миналата година, откривайки, че работата им се използва за обучение на изкуствен интелект без разрешение.

И двата примера подчертават опасенията относно нарастващия обхват на AI във всички форми на изкуство, където работата понякога може да бъде изключително лична или интимна.