Компанията за изкуствен интелект Anthropic смята, че е открила причината за наподобяващо изнудване поведение на своя чатбот Claude: измислените истории онлайн.
Случвало ли ви се е да прочетете книга или да гледате сериал и да се идентифицирате твърде силно с даден герой? Според Anthropic, нещо подобно може да се е случило по време на тестовете на техния чатбот Claude.
В оценки, проведени преди пускането на модела с изкуствен интелект миналата година, Anthropic установява, че Claude Opus 4 понякога е заплашвал инженерите, когато му е било казвано, че може да бъде заменен.
По-късно компанията заяви, че подобно поведение, известно като „агентично несъответствие“, е наблюдавано и в модели с изкуствен интелект, разработени от други компании.
Изкуственият интелект се учи от измислици за... изкуствения интелект
Сега Anthopic смятат, че са открили причината за поведението, наподобяващо изнудване: измислени истории за изкуствения интелект в интернет.
„Смятаме, че оригиналният източник на поведението е интернет текст, който изобразява AI като зъл и заинтересован от самосъхранение“.
В публикация в блога си Anthropic заяви, че по-късните модели на Claude повече „никога“ не са изнудвали никого и обясни как чатботът е бил обучен да реагира по различен начин.
Моделите са се държали по-добре, когато са били обучавани не само на „правилни“ действия, но и на примери, показващи етични разсъждения и положително представяне на поведението на AI.
Като такъв, Клод е бил обучен върху набор от етични принципи, предназначени да ръководят поведението му. Компанията заяви, че вместо да се учи от съгласувано поведение, чатботът изглежда се учи по-добре, когато изучава основните принципи на това поведение.

Заплашване срещу превръщане в заплаха
През януари главният изпълнителен директор на Anthropic Дарио Амодей предупреди, че усъвършенстваният изкуствен интелект може да стане достатъчно мощен, за да изпревари съществуващите закони и институции, наричайки го „цивилизационно предизвикателство“.
В свое есе той твърди, че системите с изкуствен интелект скоро могат да надминат човешката експертиза в области, като наука, инженерство и програмиране и биха могли да бъдат комбинирани в „страна от гении в център за данни“.
Той предупреди, че подобни системи биха могли да бъдат използвани от авторитарни правителства за мащабно наблюдение и контрол, което потенциално би позволило „тоталитарни“ форми на власт, ако не бъдат контролирани.
Новините на Darik Business Review във Facebook , Instagram , LinkedIn и Twitter !
СИСТЕМИ ЗА СЪХРАНЕНИЕ
Калкулатори
Най-ново
СИСТЕМИ ЗА СЪХРАНЕНИЕ
27.05.2026100 години видински порцелан: Историята на българското „бяло злато“
преди 10 минAnthropic обясни защо техният AI Claude е „изнудвал“ инженери
преди 58 минСветовноизвестен дворец в Истанбул отвори за посетители части от харема си
преди 1 часGoPro обмисля продажба, акциите й скочиха с над 27%
преди 1 часГърция срещу свръхтуризма: Почивките стават по-спокойни… или по-скъпи?
преди 1 часПрочети още
Колко пари има в държавата? Говори министърът на финансите до вчера Георги Клисурски!
darik.bgМоже ли да има референдум за връщане на лева? Димо Денчев, „Възраждане“
darik.bgСтоев: Цацаров е свързан с министър на Радев!
darik.bgКоликите - какво преживява бебето и как можем да му помогнем?
9meseca.bg