Генеративният изкуствен интелект (AI) все още не притежава процесите на разсъждение, необходими за безопасна клинична употреба, установява ново проучване.
Чатботовете с изкуствен интелект са подобрили диагностичната си точност, когато им се предоставя изчерпателна клинична информация, но все още не успяват да поставят подходяща диференциална диагноза в повече от 80% от случаите, според изследователи от Mass General Brigham - изследователска мрежа, базирана в Бостън и една от най-големите здравни системи в САЩ.
Резултатите от проучването, публикувани в медицинското списание с отворен достъп JAMA Network Open, установяват, че големите езикови модели (LLM) не отговарят на изискванията за разсъждение, необходими за клинична употреба.
„Въпреки непрекъснатите подобрения, стандартните големи езикови модели не са готови за самостоятелно внедряване в клинична практика“, казва Марк Сучи, съавтор на изследването.
Той допълва, че изкуственият интелект все още не може да възпроизведе диференциалната диагноза, която е от основно значение за клиничните разсъждения и която той счита за „изкуството на медицината“.
Диференциалната диагноза е първата стъпка, която здравните специалисти трябва да предприемат, за да идентифицират дадено състояние, като го отделят от други със сходни симптоми.

Как са тествани моделите?
Изследователският екип е анализирал работата на 21 големи езикови модела, включително най-новите налични версии на Claude, DeepSeek, Gemini, GPT и Grok.
Те са оценявали моделите върху 29 стандартизирани клинични винетки, използвайки новоразработен инструмент, наречен PrIME-LLM.
Инструментът оценява способността на модела на различни етапи от клиничното разсъждение: провеждане на първоначална диагноза, назначаване на подходящи тестове, достигане до окончателна диагноза и планиране на лечение.
За да симулират как се развиват клиничните случаи, изследователите постепенно са въвеждали информация в моделите, започвайки с основни данни, като възраст, пол и симптоми на пациента, преди да добавят резултати от физическия преглед и лабораторни резултати.
Диференциалната диагноза е от решаващо значение в реална клинична обстановка, за да се премине към следващата стъпка. В проучването обаче на моделите е била предоставена допълнителна информация, за да могат да преминат към следващия етап, дори ако не успеят на стъпката с диференциалната диагноза.
Висока точност при окончателните диагнози, но слабо представяне на първоначалния етап
Изследователите са установили, че езиковите модели постигат висока точност при окончателните диагнози, но се представят слабо при генерирането на диференциални диагнози и справянето с несигурността.
Авторът на изследването Аря Рао отбелязва, че чрез поетапно оценяване на големи езикови модели, изследванията преминават отвъд третирането им като полагащи тестове и ги поставят в позицията на лекар.
„Тези модели са чудесни за определяне на окончателна диагноза, след като данните са пълни, но се затрудняват в отвореното начало на случая, когато няма много информация“.
Изследователите са установили, че всички модели не успяват да поставят подходяща диференциална диагноза в повече от 80% от случаите. При окончателна диагноза процентът на успех варира от около 60% до над 90%, в зависимост от модела.
Повечето от моделите са демонстрирали подобрена точност, когато са им били предоставени лабораторни резултати и изображения в допълнение към текста.
Резултатите очертават един клъстер с най-добри резултати, който включва Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash и Gemini 3.0 Pro.
Медицинските специалисти все още са от ключово значение
Авторите отбелязват, че въпреки подобренията, базирани на отделни версии, и предимствата на моделите, оптимизирани за разсъждение, стандартните езикови модели все още не са достигнали нивото на интелигентност, необходимо за безопасно внедряване, и остават ограничени в демонстрирането на напреднало клинично разсъждение.
„Нашите резултати потвърждават, че големите езикови модели в здравеопазването продължават да имат нужда от „човек в цикъла“ и много строг надзор“, отбеляза Сучи.
Сусана Мансо Гарсия, член на работната група „Изкуствен интелект и дигитално здраве“ на Испанското дружество по семейна и обществена медицина, която не участва в проучването, заявява, че констатациите носят ясно послание към обществеността.
„Самото проучване показва, че езиковите модели не трябва да се използват за вземане на клинични решения без надзор. Следователно, макар изкуственият интелект да представлява обещаващ инструмент, човешката клинична преценка остава незаменима“, казва тя.
„Препоръката към обществеността е да използва тези технологии с повишено внимание и, когато е изправена пред някакъв здравословен проблем, винаги да се консултира със здравен специалист.“
Новините на Darik Business Review във Facebook , Instagram , LinkedIn и Twitter !
Още по темата
- Ново проучване: Посещението на културни събития забавя стареенето колкото спорта
- Проучване: Българските служители най-трудно намират смисъл и цел в работата си
- Shell прехвърля 25% от правата за проучване в блок Хан Тервел на OMV Petrom
- Южна Африка оттегля политика за AI, след като се оказва, че е писана от AI
СИСТЕМИ ЗА СЪХРАНЕНИЕ
Калкулатори
Най-ново
СИСТЕМИ ЗА СЪХРАНЕНИЕ
27.05.2026След победата на DARA на Евровизия: Резервациите в софийските хотели за 2027 г. вече валят
18.05.2026Адвокат пред DBR: Хазартна компания се опитва да регистрира BANGARANGA като търговска марка
18.05.2026Nvidia вече е по-голяма от Германия
18.05.2026€250 млн. инвестиция и 300 работни места: Проектът за добив на злато "Розино"
18.05.2026Български завод за преработка на масла край Баку тръгва скоро
18.05.2026Прочети още
„Путин да е агресор ли? Не е сега моментът за такива коментари!“ Стоянов, „Възраждане“
darik.bgМона: Дара беше страхотна! Хората полудяха по "Bangaranga"!
darik.bgДара! Господ е българка! Анализ на Инес Павлова и Васил Иванов
darik.bgРиана с нова татуировка - по "дизайн" на трите ѝ деца
9meseca.bg