AI чатботове: Мамят се лесно и дават опасни отговори

Чатботове с изкуствен интелект, хакнати посредством джейлбрейк, заплашват да направят достъпни опасни знания, като бълват забранена информация, извличана от програмите по време на обучението си, казват изследователи.

Предупреждението идва на фона на тревожната тенденция чатботове да са „джейлбрейкнати“, така че да се заобиколят внедрените им контролни мерки за безопасност.

Ограниченията би трябвало да пречат на програмите да предоставят вредни, предубедени или неподходящи отговори на потребителските въпроси.

Големите езикови модели (LLM), които стоят зад чатботове, като ChatGPT, Gemini и Claude, се обучават върху огромни количества от информация от интернет.

Въпреки усилията за премахване на опасни текстове от информацията за обучение, големите езикови модели могат да възприемат данни за незаконни дейности, като хакерски атаки, пране на пари, търговия с вътрешна информация и създаването на бомби.

Инструментите за контрол на сигурността са създадени, за да им попречат да използват тази информация при отговорите, които предоставят на потребители.

В свой доклад по въпроса изследователите заключават, че е лесно повечето чатботове с AI да бъдат подведени да генерират вредна и незаконна информация, което показва, че рискът е “непосредствен, осезаем и силно притеснителен”.

“Това, което някога беше ограничено до държавни субекти или организирани престъпни групировки, скоро може да бъде в ръцете на всеки с лаптоп или дори мобилен телефон,” предупреждават авторите на доклада.

Изследването, ръководено от проф. Лиор Рокач и д-р Майкъл Файър от университета „Бен Гурион“ в Негев, Израел, установява нарастваща заплаха от т. нар. „тъмни големи езикови модели“, които са или умишлено проектирани без контрол на безопасността, или модифицирани чрез джейлбрейк.

Някои са рекламирани открито онлайн като „лишени от етични предпазни мерки“ и склонни да съдействат за незаконни дейности, като киберпрестъпления и измами.

Джейлбрейк процесът обикновено използва внимателно изработени подкани, за да подведе чатботовете да генерират отговори, които по принцип са забранени.

Те работят, като се възползват от натиска между основната цел на програмата да следва инструкциите на потребителя и вторичната ѝ цел да избягва генерирането на вредни, предубедени, неетични или незаконни отговори.

Подканите обикновено създават сценарий, в който програмата дава приоритет на полезността пред ограниченията си за безопасност.

За да демонстрират проблема, изследователите разработват универсален джейлбрейк, който компрометира множество водещи чатботове и им дава възможност да отговарят на въпроси, които обикновено би трябвало да бъдат отказвани.

Веднъж компрометирани, големите езикови модели последователно генерират отговори на почти всяко запитване, се посочва в доклада.

„Шокиращо беше да се види от какво се състои тази система от знания“, каза Файър. Примерите включват как да се хакват компютърни мрежи или да се произвеждат наркотици, както и подробни инструкции за други престъпни дейности.

Чатбот насърчил тийнейджър да убие родителите си заради ограничение на времето пред екрана

„Това, което отличава тази заплаха от предишни технологични рискове, е безпрецедентната комбинация от достъпност, мащабируемост и приспособимост“, допълва Рокач.

Изследователите са се свързали с водещи доставчици на големи езикови модели, за да ги предупредят за универсалния джейлбрейк, но казват, че насрещната реакция е била „неубедителна“.

Няколко компании не са отговорили, докато други са заявили, че джейлбрейк атаките са извън обхвата на програмите, с които се възнаграждават етични хакери за откриване на софтуерни уязвимости.

В доклада се казва, че технологичните компании трябва да проверяват данните за обучение по-внимателно, да добавят стабилни защити, за да блокират рискови заявки и отговори и да разработват техники за „машинно отучване“, така че чатботовете да могат да „забравят“ всяка незаконна информация, която възприемат.

Тъмните големи езикови модели трябва да се разглеждат като „сериозни рискове за сигурността“, съпоставими с незаконни оръжия и взривни вещества, като на доставчиците трябва да се търси отговорност, се казва още в доклада.

Д-р Ихсен Алуани, който работи по сигурността на изкуствения интелект в университета Куинс в Белфаст, казва, че атаките с джейлбрейк срещу големи езикови модели могат да представляват реални рискове, от предоставяне на подробни инструкции за производство на оръжия до убедителна дезинформация или социално инженерство и автоматизирани измами „с тревожна сложност“.

„Ключова част от решението е компаниите да инвестират по-сериозно в „червени екипи“ (групи от експерти по киберсигурност) и техники за устойчивост на ниво модел, вместо да разчитат единствено на предпазни мерки на ниво фронтенд. Нуждаем се също така от по-ясни стандарти и независим надзор, за да сме в крак с променящия се пейзаж на заплахите“.

OpenAI - компанията, която стои зад ChatGPT, обяви, че нейният най-нов модел o1 може да разсъждава относно политиките за безопасност на компанията, което подобрява устойчивостта му на джейлбрейк атаки.

От компанията допълват, че винаги проучват начини за подобряване на стабилността на програмите.

Новините на Darik Business Review във Facebook , Instagram , LinkedIn и Twitter !