Когато Сам Родрикес изучава невробиология в университета, той е поразен от едно фундаментално ограничение на науката. 

"Дори ако изследователите вече са събрали цялата информация, необходима за разбиране на човешката клетка или мозъка, не съм сигурен, че ще узнаем за това, защото никой човек няма способността да разбере или да прочете цялата литература и да получи цялостен поглед върху определена сфера.“

Пет години по-късно Родрикес твърди, че е по-близо до решаването на този проблем с помощта на изкуствения интелект.

През септември той и неговият екип от американската стартираща компания FutureHouse обявиха, че изградената от тях и базирана на AI система може за минути да произведе синтези на научни знания, които са по-точни от страниците на Wikipedia. 

Екипът незабавно генерира записи в стила на онлайн енциклопедията за около 17 000 човешки гени, повечето от които преди това не са разпологали с подробни страници.  

Родрикес не е единственият, който се обръща към AI, за да подпомогне синтезирането на научни познания, пише списание Nature. Експлозията на интереса към големите езикови модели (LLM), генеративните AI програми, които са в основата на инструменти - като ChatGPT, предизвиква ново вълнение относно автоматизирането на тази задача.

Някои от по-новите, задвижвани от изкуствен интелект научни търсачки вече могат да помогнат на хората да изготвят наративни литературни прегледи чрез намиране, сортиране и обобщаване на публикации.

Но те все още не могат да изготвят висококачествен преглед сами и повечето изследователи са съгласни, че пълната автоматизация все още е много далеч в бъдещето.

"Сигурен съм, че в крайна сметка, ще стигнем дотам. Просто не мога да ви кажа дали това ще стане след 10 или след 100 години“, казва Пол Глазиу, специалист по доказателства и систематични прегледи в университета Бонд в Голд Коуст, Австралия.  

В същото време обаче изследователите се опасяват, че AI инструментите могат да доведат до по-немарливи, неточни или подвеждащи прегледи, "замърсяващи" литературата.

"Притеснението е, че всичките десетилетия на изследвания за това как да се направи добър синтез на доказателства започват да бъдат подкопавани“, казва Джеймс Томас, който изучава синтез на доказателства в University College London. 

Научни рецензии с помощта на компютър

Би било ужасно наивно да поискаме от ChatGPT, или който и да е друг чатбот с изкуствен интелект, просто да напише преглед на академична литература "от нулата," казват изследователите.

Езиковите модели генерират текст, като се обучават върху огромни количества документи, но повечето търговски фирми за изкуствен интелект не разкриват на какви данни са били обучени техните алгоритми.  

"Езиковите модели черпят информация от всичко, до което имат достъп - от достоверни академични изследвания до неточни блогове, случайни постове в социалните мрежи и кой знае каква друга информация. Те не могат да претеглят коя част от тази информация е най-уместна", казва Иън Маршал, който изучава синтез на научни изследвания в Кралския колеж в Лондон. 

"И тъй като LLM работят чрез многократно генериране на статистически правдоподобни думи в отговор на запитванията, те произвеждат различни отговори на един и същ въпрос и „халюцинират“ грешки – включително и несъществуващи академични препратки. Няма да се претегля коя е най-уместната, висококачествена литература. Нито един от процесите, които се считат за добра практика в синтеза на изследвания, не се осъществява“.

По-софистицираният процес включва качване на корпус от предварително избрани документи в LLM и искане от него да извлече прозрения от тях, базирайки своя отговор само на тези изследвания.

Изглежда, че този подход намалява халюцинациите, въпреки че не ги предотвратява напълно. Процесът може също да бъде настроен така, че LLM да се позовава на източниците, от които е черпил информацията си.

Това е основата за специализирани, базирани на изкуствен интелект научни търсачки, като Consensus и Elicit. Повечето компании не разкриват точните подробности за това как работят техните системи, но на практика те обикновено превръщат въпроса на потребителя в компютъризирано търсене в академични бази данни, като Semantic Scholar и PubMed, връщайки най-подходящите резултати. 

След това LLM обобщава всяко от тези изследвания и ги синтезира в отговор, който цитира своите източници, а на потребителя се предоставят различни опции за филтриране на работата, която иска да включи. 

"Те са преди всичко търсачки. И поне това, което цитират, със сигурност е истинско“, смята Арън Тей, който ръководи услуги за данни в Сингапурския университет по мениджмънт и блогове за AI инструменти.  

Но повечето търсачки, базирани на изкуствен интелект, не могат самостоятелно да изготвят точни рецензии на литературата, с която разполагат. Другото ограничение на някои от тях, включително Elicit, е, че те могат да търсят само документи и резюмета с отворен достъп, а не пълния текст на статиите. 

Elicit - базирана в Оукланд, Калифорния, търси в около 125 милиона статии, Consensus от Бостън в Масачузетс разглежда повече от 200 милиона. Голяма част от изследователската литература обаче е платена, а и изчисленията на AI на база на пълните текстове са много по-сложни и скъпи. 

"Пускането на AI приложение през целия текст на милиони статии ще отнеме много време и ще стане непосилно скъпо“, казва Муштак Билал, постдокторант в Университета на Южна Дания в Одензе. 

Следващата крачка 

За Родрикес парите не са проблем, тъй като неговата организация с нестопанска цел FutureHouse, базирана в Сан Франциско, е подкрепена от бившия главен изпълнителен директор на Google Ерик Шмид и други спонсори. Основана през 2023 г., FutureHouse има за цел да автоматизира изследователски задачи с помощта на AI.

Този септември Родрикес и неговият екип разкриха PaperQA2 - прототип на AI система с отворен код на FutureHouse. Когато получи заявка, PaperQA2 търси в няколко академични бази данни за подходящи документи и се опитва да получи достъп до пълния текст както на съдържание с отворен достъп, така и на платено съдържание.

Родрикес казва, че екипът има достъп до много платени документи чрез академичните връзки на своите членове. След това системата идентифицира и обобщава най-подходящите елементи. Отчасти защото PaperQA2 усвоява пълния текст на документите, работата му е скъпа, казва той.

Екипът на FutureHouse тества системата, като я използва за генериране на статии в стил Уикипедия за отделни човешки гени. След това те дават няколкостотин изявления, написани от AI от тези статии, заедно с изявления от реални (написани от хора) статии в Уикипедия по същата тема, на панел от докторанти и постдокторанти биолози, които обаче не знаят коя статия от кого е написана. 

Панелът установил, че статиите, написани от хора, съдържат два пъти повече грешки в разсъжденията (при които писмено твърдение не е правилно подкрепено от цитата), отколкото тези, написани от AI инструмента.

Тъй като алгоритъмът превъзхожда хората по този показател, екипът е озаглавил своята статия „Езиковите агенти постигат свръхчовешки синтез на научно познание“.

Систематично предизвикателство

Наративните обобщения на литературата са достатъчно трудни за създаване, но систематичните прегледи са още по-голямо предизвикателство. Завършването им може да отнеме на хората месеци или дори години.

Систематичният преглед включва най-малко 25 внимателни стъпки, според разбивка от екипа на Глазиу. След като прегледа литературата, изследователят трябва да филтрира своя списък, за да намери най-подходящите документи, след това да извлече данни, да провери проучвания за потенциални пристрастия и да синтезира резултатите.

Много от тези стъпки се правят в два екземпляра от друг изследовател, за да се проверят за несъответствия.

През 2019 г., още преди да се появи ChatGPT, Глазиу и колегите му успяват да постигнат световен рекорд в науката - систематичен преглед за две седмици. Той и неговите колеги вече са разработили компютърни инструменти за намаляване на необходимото време.

Софтуерът, наличен по това време, включва модела за машинно обучение RobotSearch, обучен да идентифицира бързо рандомизирани проучвания. RobotReviewer - друга система за изкуствен интелект, помага да се прецени дали дадено проучване е изложено на риск от грешки. 

"Броячът" стартира в 9:30 сутринта в понеделник, 21 януари, 2019 г., а екипът успява да приключи по обяд в петък, 1 февруари, след общо девет работни дни. Оттогава екипът е подобрил собствения си рекорд си до пет дни. Може ли обаче процесът да стане по-бърз?

Elicit е една от компаниите, които твърдят, че нейните инструменти помагат на изследователите с професионални рецензии, а не само с обобщения. Изследователите обаче се опасяват, че инструментите за изкуствен интелект са изложени на риск да не отговорят на два основни критерия на проучванията - прозрачност и повтаряемост.

"Ако не мога да видя използваните методи, това не е систематичен преглед, а просто статия“, казва Джъстин Кларк, който изгражда инструменти за автоматизиране на прегледа като част от екипа на Глазиу. 

От Elicit засега не гарантират, че резултатите им винаги ще бъдат идентични при повторения на едни и същи стъпки, но се стремят към тази цел.  

Какви са рисковете? 

Автоматизирането на синтеза на информация също е свързано с рискове. Изследователите са наясно, че много от систематичните рецензии са излишни или с лошо качество, а AI може да да влоши тези проблеми.

Авторите може съзнателно или несъзнателно да използват AI, за да минат по-бързо през рецензия, която не следва строги процедури или включва работа с лошо качество, вследствие на което да получат подвеждащ резултат.

От друга страна обаче, изкуственият интелект може също така да насърчи изследователите да направят бърза проверка на вече публикувана литература, за която не биха си направили труда преди това, тъй като би им отнела много време.

Според учените, в бъдеще AI инструментите могат да помогнат за маркиране и филтриране на изследвания с лошо качество.

Пол Глазиу вижда ситуацията като баланс на две сили - AI инструментите могат да помогнат на учените да изготвят висококачествени рецензии, но могат също така да стимулират бързото генериране на некачествени такива. "Не знам какво ще бъде нетното въздействие върху публикуваната литература“, казва той.

Някои хора твърдят, че способността за синтезиране и осмисляне на световното знание не трябва да лежи единствено в ръцете на непрозрачни, печеливши компании.

Джъстин Кларк иска да види и неправителствени организации и други групи с нестопанска цел да изграждат и внимателно да тестват AI инструменти. 

"Просто искаме да бъдем предпазливи и внимателни.Искаме да сме сигурни, че отговорите, които технологията ни помага да предоставим, ще бъдат правилни“.