Защо ChatGPT влошава резултатите си по математика?

Откакто станаха широко достъпни за обществеността миналата година, чатботовете с изкуствен интелект вдъхновиха много хора, които експериментират с тях в най-различни сектори, като в същото време поставиха началото на глобална надпревара за развитието на подобни приложения. Чатботовете дори допринесоха за стачките в Холивуд заради въздействието, което могат да окажат върху професиите на сценаристите и актьорите.

AI инструментите породиха и страх, че ще застрашат човечеството, ако станат прекалено "умни" и самостоятелни.

ChatGPT на OpenAI дебютира пред обществеността през ноември, предизвиквайки в голяма степен еуфория около цялата индустрия. Той бе последван от Chat GPT-4 през март, за който се смяташе, че ще е по-мощен от своя предшественик.

Но едно ново изследване разкрива фундаментално предизвикателство при разработването на изкуствен интелект. Оказва се, че ChatGPT всъщност е влошил резултатите си при извършването на определени основни математически операции, съобщава The Wall Street Journal.

Как се стартира бизнес за ден със $100 и помощта на ChatGPT?

Изследователите от Станфордския университет и Калифорнийския университет в Бъркли твърдят, че по-слабите резултати в математическите задачи са пример за феномен, известен на разработчиците на AI като "девиация". Той се състои в това, че опитите за подобряване на една част от изключително сложните AI модели карат други техни компоненти да се представят по-зле.

"Промяната на алгоритъма в една посока може да го влоши в други направления. Това превръща постоянното му подобряване в изключително предизвикателство“, казва Джеймс Зу, професор от Станфорд, който работи в лабораторията на университета за изкуствен интелект и е един от авторите на новото изследване.

На пръв поглед ChatGPT може да бъде невероятен - забавен, компетентен във всяка тема и с безупречна граматика. Някои хора подлагат чатбота на стандартизирани тестове, които той успява да реши без грешка. Но в други случаи той се затруднява с базови математически задачи.

Досега изследователите са тествали две версии на ChatGPT - 3.5, достъпна безплатно онлайн за всеки и 4.0, която е включена в премиум абонамента на услугата, предлагана от OpenAI.

Резултатите не са особено обнадеждаващи. Основна задача на чатбота е била да определи дали дадено число е просто (такова, което се дели само на 1 и на себе си). Това е математически проблем, който е сложен за хората, но изключително прост за компютрите.

За да проследят ефективността на чатбота, учените му предоставят 1000 различни числа. През март премиум версията GPT-4 идентифицира правилно като прости или не 84% от числата. Сама по себе си, тази производителност е доста посредствена за компютър. Но още по-лошото е, че до юни успехът му спада до 51%.

От осем различни задачи GPT-4 влошава резултатите си в шест. GPT-3.5 се подобри по шест показателя, но продължава да се представя по-зле от своя "елитен" събрат при повечето задачи.

Създателят на ChatGPT: AI ще направи революция в образованието

Много от хората, които си играят с моделите, първоначално били озадачени, но с течение на времето започват а забелязват все повече и повече неправилни отговори или откази на чатбота да отговори.

Изследването на екипа на Станфорд-Бъркли показва емпирично, че това не е просто субективно впечатление. Чатботът е станал емпирично по-лош по определени функции, включително изчисляване на математически въпроси, отговаряне на медицински запитвания и генериране на код.

В отговор на въпрос относно новото изследване, OpenAI изтъкват, че когато пускат нови версии на моделите на изкуствения интелект, основният приоритет е да ги направят "по-умни" във всички сфери.

"Работим усилено, за да гарантираме, че новите версии водят до подобрения в широк набор от задачи. Въпреки това методологията ни за оценка не е перфектна и ние непрекъснато я усъвършенстваме“, твърдят разработчиците на компанията.

Все пак, в интерес на истината, чатботът не се влошава като цяло в повечето си функции, а само в отделни направления. В някои от тестовете GPT-3.5, макар и по-неточен като цяло, се е подобрил, докато GPT-4 се е влошил.

Феноменът на непредсказуемата девиация е известен на изследователите, които изучават машинното обучение и AI.

Изследователите от Станфорд-Бъркли не задават само математически въпроси на ChatGPT. Те също така го питат и за мнение, за да видят дали чатботът ще отговори, черпейки от база данни с около 1500 въпроса.

През март ChatGPT-4 отговарял на 98% от въпросите, а през юни успял да даде отговори само на 23%, често "измъквайки се" с изключително кратки отговори или с оправданието, че няма мнение.

Това разкрива много за механизмите, чрез които функционират AI системите. Откакто бяха пуснати чатботовете, се появи нова индустрия, посветена на така нареченото "промпт инженерство".

Понякога тези, които експериментират с различни подкани към алгоритъма, просто се опитват да извлекат максимума от моделите, като намерят най-добрия начин да задават въпроси, за да получат желаните резултати. Но понякога те се опитват да подмамят ботовете да кажат нещо обидно или възмутително.

Някои от тези техники са напълно доброжелателни. Миналата година Джейсън Уей и Дени Зу от Google Research публикуваха документ, показващ, че моделите с изкуствен интелект са много по-добри при решаването на сложни задачи за разсъждение, когато са подканени да се справят с проблема стъпка по стъпка. През март тази техника, известна като подсказване на верига от мисли, работи добре. Но до юни методът става много по-неефективен.

Google: Не вярвайте на нашия чатбот, ползвайте търсачката

Може ли ерозията на способността за решаване на математически проблеми да е нежелана последица от опитите да се попречи на хората да подмамят AI да дава възмутителни отговори? И дали е възможно това да е опит за премахване на промпт инженерството и неволното объркване? Моделите са толкова сложни, че дори екипите, които ги разработват, може и да не са съвсем сигурни за отговорите на тези въпроси.

Зу казва, че идеята му не е да технологията да бъде заклеймена или изоставена, а по-скоро да се наблюдава много по-отблизо. Екипът от Станфорд и Бъркли ще продължи систематично да тества AI моделите на ChatGPT и на останалите чатботове, подглагайки ги на хиляди тестове, за да анализира емпирично тяхното представяне във времето.

Свикнали сме да мислим за знанието като за овладяване на един проблем и след това надграждане върху него. Като страничен ефект от невероятната му сложност AI може да не работи по този начин. Вместо това той работи на принципа "една крачка напред и една в неочаквана посока". С течение на времето алгоритмите вероятно ще продължат да се движат напред, но това съвсем няма да се случва по права линия, казват още експертите.

Новините на Darik Business Review във Facebook , Instagram , LinkedIn и Twitter !