От последните разработки в областта на изкуствения интелект и машинното обучение може да се направи извода, че според повечето компании, "по-голямото е по-добро".

Идеята е, че използването на повече данни, повече изчислителна мощност и повече параметри ще доведат до по-мощни модели и алгоритми. 

Началото на това мислене беше поставено с документ от 2017 г., в който изследователите на Google представят трансформаторната архитектура, която е в основата на днешния бум на езиковите модели и поддържат тезата, че мащабът е всичко, от което се нуждаете в AI ерата.  

Колкото повече, толкова повече

Днес големите технологични компании изглежда се състезават именно за мащаба преди всичко останало.

Те просто добавят милиарди нови параметри, което означава, че средностатистическият човек не би могъл да изтегли моделите и да работи върху тях, дори и да са с отворен код (а в повечето случаи те не са). 

"Днешните AI модели са просто твърде големи“, казва Саша Лучиони от стартъп компанията Hugging Face.

Огромният мащаб на работата води със себе си редица проблеми, като например инвазивни практики за събиране на данни, присъствие на материали за сексуално насилие над деца в наборите от данни и други.

Освен това по-големите модели имат и много по-голям въглероден отпечатък, тъй като изискват повече енергия за работа, коментира Лучиони пред MIT Technology Review.

Друг проблем, който мащабът носи, е изключителната концентрация на власт. Разширяването на моделите струва много пари и само елитните изследователи, работещи в Big Tech компаниите, имат ресурсите да изграждат и управляват подобна инфраструктура.

„Появява се пречка, създадена от много малък брой богати и могъщи компании, които използват AI като част от своя основен продукт“, смятат експертите, но добавят, че не е задължително нещата да продължават в същия дух. 

Може ли по-малкото да бъде по-добро?

Появяват се обаче и нови, мултимодални езикови модели, които са малки, но мощни. Изследователи от Института за изкуствен интелект Allen (Ai2) са създали семейство модели с отворен код, наречено Molmo, което постига впечатляваща производителност с малка част от ресурсите, използвани за изграждане на конвенционалните AI алгоритми.

Организацията твърди, че нейният най-голям модел Molmo, който има 72 милиарда параметъра, превъзхожда GPT-4o на OpenAI (който се оценява на над трилион параметри) в тестове, измерващи различни неща, включително разбиране на изображения, диаграми и документи.

Междувременно, от Ai2 казват, че по-малкият модел Molmo със 7 милиарда параметъра се доближава до най-съвременния модел на OpenAI по производителност - постижение, което се приписва на много по-ефективното събиране на данни и по-съвършени методи за обучение.

Целта на Molmo е да покаже, че не се нуждаем от огромни набори от данни и масивни модели, изискващи тонове пари и енергия за обучение.

Излизането от нагласата, че „мащабът е всичко, от което се нуждаете“ е било едно от най-големите предизвикателства за изследователите, създали Molmo.

„Когато започнахме този проект, си мислехме, че трябва да мислим напълно различно, защото трябва да има по-добър начин за обучение на модели. Екипът искаше да докаже, че отворените приложения могат да бъдат също толкова мощни, колкото затворените и това изискваше от тях да изградят модели, които са достъпни и не струват милиони долари за обучение", казва Ани Кембави, старши директор по изследванията в Ai2.

Качество или количество?

Има още един добър пример за свиването на мащаба на AI. По-големите модели са склонни да правят по-широк набор от неща, отколкото крайните потребители действително се нуждаят.

"През повечето време нямате нужда от модел, който прави всичко. Имате нужда от модел, който изпълнява конкретна задача, която искате да изпълнява. И за това по-големите модели не са непременно по-добри“, казва Лучиони. 

Вместо това трябва да се променят начините, по които измерваме ефективността на изкуствения интелект и да се постави фокус върху нещата, които действително имат значение.

Лучиони дава пример с алгоритъм за откриване на рак, в който, вместо да се използва модел, който може да прави всякакви неща и се обучава в интернет, е по-добре да се даде приоритет на други фактори, като точност, поверителност и достатъчна гаранция за достоверността на обучителните параметри. 

Но този подход изисква по-високо ниво на прозрачност от това, което в момента AI компаниите поддържат. Изследователите, всъщност, не знаят как или защо техните модели правят това, което правят, и дори нямат реална представа какво влиза в техните набори от данни.

Мащабирането е популярна техника, тъй като "хвърлянето" на повече информация в моделите изглежда ги кара да се представят по-добре. 

Изследователската общност обаче трябва да измести стимулите, така че от технологичните компании да се изисква да бъдат по-внимателни и прозрачни относно това, което влиза в техните модели, и да им помогнат "да правя повече с по-малко", смятат учените от Ai2.

Според тях, AI моделите не са "магическа черна кутия" и няма да решат всички проблеми на бизнеса и човечеството.