Компанията за изкуствен интелект Anthropic смята, че е открила причината за наподобяващо изнудване поведение на своя чатбот Claude: измислените истории онлайн.
Случвало ли ви се е да прочетете книга или да гледате сериал и да се идентифицирате твърде силно с даден герой? Според Anthropic, нещо подобно може да се е случило по време на тестовете на техния чатбот Claude.
В оценки, проведени преди пускането на модела с изкуствен интелект миналата година, Anthropic установява, че Claude Opus 4 понякога е заплашвал инженерите, когато му е било казвано, че може да бъде заменен.
По-късно компанията заяви, че подобно поведение, известно като „агентично несъответствие“, е наблюдавано и в модели с изкуствен интелект, разработени от други компании.
Изкуственият интелект се учи от измислици за... изкуствения интелект
Сега Anthopic смятат, че са открили причината за поведението, наподобяващо изнудване: измислени истории за изкуствения интелект в интернет.
„Смятаме, че оригиналният източник на поведението е интернет текст, който изобразява AI като зъл и заинтересован от самосъхранение“.
В публикация в блога си Anthropic заяви, че по-късните модели на Claude повече „никога“ не са изнудвали никого и обясни как чатботът е бил обучен да реагира по различен начин.
Моделите са се държали по-добре, когато са били обучавани не само на „правилни“ действия, но и на примери, показващи етични разсъждения и положително представяне на поведението на AI.
Като такъв, Клод е бил обучен върху набор от етични принципи, предназначени да ръководят поведението му. Компанията заяви, че вместо да се учи от съгласувано поведение, чатботът изглежда се учи по-добре, когато изучава основните принципи на това поведение.

Заплашване срещу превръщане в заплаха
През януари главният изпълнителен директор на Anthropic Дарио Амодей предупреди, че усъвършенстваният изкуствен интелект може да стане достатъчно мощен, за да изпревари съществуващите закони и институции, наричайки го „цивилизационно предизвикателство“.
В свое есе той твърди, че системите с изкуствен интелект скоро могат да надминат човешката експертиза в области, като наука, инженерство и програмиране и биха могли да бъдат комбинирани в „страна от гении в център за данни“.
Той предупреди, че подобни системи биха могли да бъдат използвани от авторитарни правителства за мащабно наблюдение и контрол, което потенциално би позволило „тоталитарни“ форми на власт, ако не бъдат контролирани.
Новините на Darik Business Review във Facebook , Instagram , LinkedIn и Twitter !
Грижа по мярка при кастрирани котки
Калкулатори
Най-ново
DiscoverEU: 634 млади българи спечелиха безплатни карти за пътуване с влак в Европа
08.06.2026Колко струва интернетът в Европа? България е в топ 3 по най-ниски цени
08.06.2026Една от най-големите сделки на офис пазара у нас: Kambanite Green Offices се продаде за 17 млн. евро
08.06.2026Един от най-посещаваните градове в Европа ограничава туристите и затваря круизното си пристанище
08.06.2026Луксозните имоти в Гърция са хит: До 85% от купувачите чужденци
08.06.2026Д-р Светломир Дамянов: 100 евро за профилактика на зъбите спестяват 1300 евро за лечение
08.06.2026Прочети още
„Кандев подаде оставка, защото някой е поискал нещо от него!“ Анализ на доц. Милен Иванов
darik.bgВиновен ли е Радев? Ще се справи ли с парите на държавата? Анализ на Петър Ганев
darik.bg200 км/ч, 3 жертви, банда, зверска катастрофа в София: Говори Васил Терзиев!
darik.bgСеверен парк и „Семеен парк фест „Надежда“ празнуваха със стотици семейства Деня на детето
9meseca.bg