AI далеч от лекар: Проваля се в над 80% от случаите на първични медицински диагнози

Генеративният изкуствен интелект (AI) все още не притежава процесите на разсъждение, необходими за безопасна клинична употреба, установява ново проучване.

Чатботовете с изкуствен интелект са подобрили диагностичната си точност, когато им се предоставя изчерпателна клинична информация, но все още не успяват да поставят подходяща диференциална диагноза в повече от 80% от случаите, според изследователи от Mass General Brigham - изследователска мрежа, базирана в Бостън и една от най-големите здравни системи в САЩ.

Резултатите от проучването, публикувани в медицинското списание с отворен достъп JAMA Network Open, установяват, че големите езикови модели (LLM) не отговарят на изискванията за разсъждение, необходими за клинична употреба.

„Въпреки непрекъснатите подобрения, стандартните големи езикови модели не са готови за самостоятелно внедряване в клинична практика“, казва Марк Сучи, съавтор на изследването.

Той допълва, че изкуственият интелект все още не може да възпроизведе диференциалната диагноза, която е от основно значение за клиничните разсъждения и която той счита за „изкуството на медицината“.

Диференциалната диагноза е първата стъпка, която здравните специалисти трябва да предприемат, за да идентифицират дадено състояние, като го отделят от други със сходни симптоми.

AI трансформира здравеопазването в Европа

Как са тествани моделите?

Изследователският екип е анализирал работата на 21 големи езикови модела, включително най-новите налични версии на Claude, DeepSeek, Gemini, GPT и Grok.

Те са оценявали моделите върху 29 стандартизирани клинични винетки, използвайки новоразработен инструмент, наречен PrIME-LLM.

Инструментът оценява способността на модела на различни етапи от клиничното разсъждение: провеждане на първоначална диагноза, назначаване на подходящи тестове, достигане до окончателна диагноза и планиране на лечение.

За да симулират как се развиват клиничните случаи, изследователите постепенно са въвеждали информация в моделите, започвайки с основни данни, като възраст, пол и симптоми на пациента, преди да добавят резултати от физическия преглед и лабораторни резултати.

Диференциалната диагноза е от решаващо значение в реална клинична обстановка, за да се премине към следващата стъпка. В проучването обаче на моделите е била предоставена допълнителна информация, за да могат да преминат към следващия етап, дори ако не успеят на стъпката с диференциалната диагноза.

Висока точност при окончателните диагнози, но слабо представяне на първоначалния етап

Изследователите са установили, че езиковите модели постигат висока точност при окончателните диагнози, но се представят слабо при генерирането на диференциални диагнози и справянето с несигурността.

Авторът на изследването Аря Рао отбелязва, че чрез поетапно оценяване на големи езикови модели, изследванията преминават отвъд третирането им като полагащи тестове и ги поставят в позицията на лекар.

„Тези модели са чудесни за определяне на окончателна диагноза, след като данните са пълни, но се затрудняват в отвореното начало на случая, когато няма много информация“.

Изследователите са установили, че всички модели не успяват да поставят подходяща диференциална диагноза в повече от 80% от случаите. При окончателна диагноза процентът на успех варира от около 60% до над 90%, в зависимост от модела.

Повечето от моделите са демонстрирали подобрена точност, когато са им били предоставени лабораторни резултати и изображения в допълнение към текста.

Резултатите очертават един клъстер с най-добри резултати, който включва Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash и Gemini 3.0 Pro.

Медицинските специалисти все още са от ключово значение

Авторите отбелязват, че въпреки подобренията, базирани на отделни версии, и предимствата на моделите, оптимизирани за разсъждение, стандартните езикови модели все още не са достигнали нивото на интелигентност, необходимо за безопасно внедряване, и остават ограничени в демонстрирането на напреднало клинично разсъждение.

„Нашите резултати потвърждават, че големите езикови модели в здравеопазването продължават да имат нужда от „човек в цикъла“ и много строг надзор“, отбеляза Сучи.

Сусана Мансо Гарсия, член на работната група „Изкуствен интелект и дигитално здраве“ на Испанското дружество по семейна и обществена медицина, която не участва в проучването, заявява, че констатациите носят ясно послание към обществеността.

„Самото проучване показва, че езиковите модели не трябва да се използват за вземане на клинични решения без надзор. Следователно, макар изкуственият интелект да представлява обещаващ инструмент, човешката клинична преценка остава незаменима“, казва тя.

„Препоръката към обществеността е да използва тези технологии с повишено внимание и, когато е изправена пред някакъв здравословен проблем, винаги да се консултира със здравен специалист.“

Новините на Darik Business Review във Facebook , Instagram , LinkedIn и Twitter !