Проект Панама: Anthropic тайно унищожила 2 млн. книги за обучение на AI

През началото на 2024 г. ръководителите на стартъпа Anthropic започват амбициозен проект, който искали да запазят в тайна.

„Проект Панама" е нашият опит да сканираме и унищожим всички книги в света“, се казва в разсекретени съдебни документи. „Не искаме да се знае, че работим по това.“

Според документите, цитирани от Washington Post, в рамките на около година компанията е похарчила десетки милиони долари за закупуване и изрязване на кориците на милиони книги, след което е сканирала страниците им, за да „храни“ AI моделите зад продукти като популярния чатбот Claude.

Детайли за "Проект Панама", които досега не са били публикувани, се появиха в над 4000 страници документи по съдебно дело за авторски права срещу Anthropic, оценена от инвеститорите на 183 милиарда долара. Компанията се съгласи да плати 1.5 милиарда долара, за да уреди делото през август, но съдията наскоро разсекрети множество документи, които показват колко активно Anthropic е търсила книги.

Документите, заедно с предишни дела срещу AI компании, показват колко далеч са готови да стигнат технологични фирми като Anthropic, Meta, Google и OpenAI, за да получат огромни количества данни за обучение на своите софтуерни продукти.

Съдебните дела показват, че книгите са били смятани за ценна „награда“. В документ от януари 2023 г. един от съоснователите на Anthropic твърди, че обучението на AI модели върху книги може да ги научи „как да пишат добре“, вместо да имитират „нискокачествен интернет език“. В имейл от 2024 г. вътре в Meta се описва достъпът до дигитална колекция от книги като „ключов“ за конкурентоспособност.

Но съдебните документи подсказват, че компаниите не смятали за практично да получат директно разрешение от издатели и автори. Вместо това Anthropic, Meta и други компании са намирали начини да придобиват книги на едро без знанието на авторите, включително чрез изтегляне на пиратски копия.

В няколко случая служители на Meta изразявали вътрешно притеснение, че изтеглянето на милиони книги без разрешение нарушава закона за авторското право. В имейл от декември 2023 г. се казва, че практиката е одобрена след „ескалация към MZ“, очевидно препратка към Марк Зукърбърг.

В ново съдебно заявление Anthropic разкри, че съоснователят Бен Ман лично е изтеглил художествени и нехудожествени книги от „сянкова библиотека“ (LibGen) за 11 дни през юни 2021 г. Скрийншот на браузъра му показва файлове, изтеглени чрез софтуер за споделяне на файлове.

Година по-късно Ман поздравява дебюта на уебсайта Pirate Library Mirror, който е имал масивна база данни от книги и е заявил: „умишлено нарушаваме авторското право в повечето държави“. Той изпраща линк към сайта на други служители с посланието „точно навреме!!!“

Anthropic заяви, че никога не е обучавала комерсиален AI модел, който да генерира приходи, използвайки данните от LibGen, и никога не е използвала Pirate Library Mirror за обучение на пълен AI модел.

Ед Нютън-Рекс, бивш AI изпълнител и музикален композитор, сега ръководещ организация за правата на създателите, каза, че разкритията подчертават, че AI компаниите дължат на творците повече, отколкото са платили досега.

Надпревара за данни и авторски права

Google, Microsoft и OpenAI също са обект на съдебни дела за нарушаване на авторски права от автори на книги.

Повечето дела срещу AI компании все още текат, но в две ранни решения съдии установиха, че използването на книги за обучение на AI модели без разрешение може да е законно по принципа „fair use“ (справедливо използване).

През юни съдия Уилям Алсъп постанови, че Anthropic има право да използва книги за обучение, защото обработва материала по „трансформативен“ начин – като учители, които обучават ученици да пишат добре.

Компаниите обаче могат да имат проблеми с начина, по който са придобивали книгите. В случая с Anthropic проектът за сканиране премина законово, но съдията откри, че компанията може да е нарушила авторски права, когато е изтеглила милиони пиратски книги преди старта на "Проект Панама".

Правни битки и „справедливо използване“

Anthropic получи статут на колективен иск за автори, чиито книги са били включени в „сянкови библиотеки“, изтеглени и съхранявани за бъдеща употреба. Компанията се съгласи да плати 1.5 милиарда долара на издатели и автори, без да признае вина.

В съобщение за медиите заместник-генералният юрисконсулт на Anthropic, Апарна Сридхар, заяви: „Съдия Алсъп постанови, че обучението на AI е „квинтесенциално трансформативно“: моделите на Anthropic са обучени, за да „не репликират или заменят творбите – а да ги преобразят и създадат нещо различно“. Спорът, който уредихме, беше относно начина на придобиване на материали, а не дали можем да ги използваме за развитие на AI модели.“

Документите разкриват и склад за книги, който е играл роля в "Проект Панама" – за сканиране, дигитализация и унищожаване на милиони книги.

Купи, сканирай, рециклирай

За проекта Anthropic наемат ветерана Том Търви, бивш изпълнителен директор в Google, участвал в създаването на проекта Google Books.

Първоначално обмисляли купуване на книги от библиотеки и антикварни магазини като Strand в Ню Йорк. Обсъждали и подход към обществените библиотеки в САЩ, включително NYPL.

В крайна сметка купили милиони книги, често на партиди по десетки хиляди, чрез търговци на употребявани книги като Better World Books и World of Books.

Проектните документи описват как „хидравличната машина за рязане“ ще изрязва книгите, страниците ще се сканират на високоскоростни скенери, а след това рециклиращата компания ще ги прибира.

„Не се чувства правилно“

Документите срещу Meta показват, че служители също са желаели повече данни и са поемали юридически рискове. Имейли от 2023 г. показват притеснения относно използването на пиратски книги чрез торенти и как да се прикрие активността, за да не се проследи обратно към компанията.

Съдебни дела срещу OpenAI и Microsoft показват сходни обвинения. OpenAI признава, че е изтеглила LibGen, но заявява, че файловете са изтрити преди пускането на ChatGPT.

Професорът по дигитално право Джеймс Гримелман (Cornell Tech) коментира, че AI компаниите „се убедиха в заблуда“ относно използването на защитени материали. Технологичните пробиви зад ChatGPT са започнали в академични изследвания, където използването на авторски материали е широко прието, но практиката е продължила и в комерсиализацията на AI.

Според него решението на Anthropic да започне да купува и сканира физически книги вместо да изтегля „сянкови библиотеки“ е било мъдро – пример за по-умерен подход и съответствие със закона.

Новините на Darik Business Review във Facebook , Instagram , LinkedIn и Twitter !