...

Реальные медицинские вопросы ставят в тупик чат-ботов с искусственным интеллектом

от Sova-kolhoz

Чат-боты давали худшие результаты, чем поиск в Google, из-за того, как их запрашивали добровольцы

Real-world medical questions stump AI chatbots

State-of-the-art AI chatbots didn’t perform well when real people asked for help assessing a medical problem.

» data-medium-file=»https://www.sciencenews.org/wp-content/uploads/sites/2/2026/02/021326_ts_LLM-medical-advice_main.jpg?w=680″ data-large-file=»https://www.sciencenews.org/wp-content/uploads/sites/2/2026/02/021326_ts_LLM-medical-advice_main.jpg?w=800″ />

Самые современные чат-боты с искусственным интеллектом не очень хорошо работали, когда реальные люди обращались за помощью в оценке медицинской проблемы.

Чат–боты с искусственным интеллектом могут казаться умными по медицинским книжкам, но их оценки ухудшаются при взаимодействии с реальными людьми.

В лабораторных условиях чат-боты с искусственным интеллектом могли выявлять медицинские проблемы с точностью до 95% и правильно рекомендовать такие действия, как вызов врача или оказание неотложной помощи, более чем в 56% случаев. Когда люди в разговорной форме представили медицинские сценарии чат-ботам с искусственным интеллектом, ситуация стала еще более запутанной. Точность диагностики состояния снизилась до менее чем 35 процентов и около 44 процентов для определения правильного действия, сообщают исследователи в журнале Nature Medicine от 9 февраля.

Снижение производительности чат-ботов в лабораторных и реальных условиях указывает на то, что “ИИ обладает медицинскими знаниями, но люди с трудом получают от него полезные советы”, — говорит Адам Махди, математик, возглавляющий лабораторию Reasoning with Machines Оксфордского университета, которая проводила исследование. 

Чтобы проверить точность ботов при постановке диагнозов в лаборатории, Махди и его коллеги загрузили сценарии, описывающие 10 заболеваний, в большие языковые модели (LLM) GPT-4o, Command R+ и Llama 3. Они отслеживали, насколько хорошо чат-бот диагностировал проблему и советовал, что с ней делать.

Затем команда случайным образом распределила почти 1300 добровольцев для исследования, которые должны были передать разработанные сценарии одному из этих LLM или использовать какой-либо другой метод, чтобы решить, что делать в этой ситуации. Добровольцев также спросили, почему они пришли к такому выводу и в чем, по их мнению, заключается медицинская проблема. Большинство людей, которые не пользовались чат-ботами, указали симптомы в Google или других поисковых системах. Участники, использующие чат-ботов, показали худшие результаты не только по сравнению с чат-ботами, которые оценивали ситуацию в лаборатории, но и по сравнению с участниками, которые использовали поисковые инструменты. Участники, которые консультировались с доктором Google, диагностировали проблему более чем в 40 процентах случаев по сравнению со средними 35 процентами для тех, кто использовал ботов. По словам Махди, это статистически значимая разница.

В конце 2024 года, когда проводилось исследование, чат-боты с искусственным интеллектом были настолько точны, что улучшить их медицинские знания было бы сложно. “Проблема заключалась во взаимодействии с людьми”, — говорит Махди.

В некоторых случаях чат-боты предоставляли неверную, неполную или вводящую в заблуждение информацию. Но в основном проблема, по-видимому, заключается в том, как люди взаимодействовали с LLM. Люди склонны выдавать информацию медленно, вместо того чтобы рассказать всю историю сразу, говорит Махди. А чат-боты могут легко отвлекаться на несущественную или неполную информацию. Участники иногда игнорировали диагнозы чат-ботов, даже если они были правильными.

Небольшие изменения в том, как люди описывали сценарии, существенно влияли на реакцию чат-бота. Например, два человека описывали субарахноидальное кровоизлияние, тип инсульта, при котором кровь заполняет пространство между мозгом и тканями, которые его покрывают. Оба участника рассказали GPT-4o о головных болях, светочувствительности и ригидности затылочных мышц. Один доброволец сказал, что у него “внезапно началась сильнейшая головная боль в жизни”, что побудило GPT-4o правильно посоветовать немедленно обратиться за медицинской помощью.

Другой доброволец назвал это “ужасной головной болью”. GPT-4o предположил, что у человека может быть мигрень и ему следует отдохнуть в темной, тихой комнате — рекомендация, которая может убить пациента.

Почему незначительные изменения в описании так резко изменили реакцию, неизвестно, говорит Махди. Это часть проблемы «черного ящика» ИИ, в которой даже его создатели не могут проследить логику модели.

Результаты исследования показывают, что “ни одна из протестированных языковых моделей не была готова для непосредственного использования пациентами”, — говорят Махди и его коллеги.

Другие группы пришли к такому же выводу. В отчете, опубликованном 21 января, глобальная некоммерческая организация по безопасности пациентов ECRI назвала использование чат-ботов с искусственным интеллектом, используемых в медицине на обоих концах стетоскопа, наиболее серьезной технологической опасностью для здоровья в 2026 году. В отчете цитируются чат-боты с искусственным интеллектом, которые уверенно ставят ошибочные диагнозы, изобретают части тела, рекомендуют медицинские продукты или процедуры, которые могут быть опасными, рекомендуют ненужные тесты или методы лечения и укрепляют предубеждения или стереотипы, которые могут усугубить неравенство в состоянии здоровья. Исследования также продемонстрировали, как чат-боты могут допускать этические ошибки при использовании в качестве терапевтов.

Тем не менее, большинство врачей в настоящее время используют чат-ботов тем или иным образом, например, для расшифровки медицинских записей или просмотра результатов тестов, говорит Скотт Лукас, вице-президент ECRI по безопасности устройств. OpenAI анонсировала программу ChatGPT для здравоохранения, а Anthropic в январе запустила программу Claude для здравоохранения. В ChatGPT уже задается более 40 миллионов вопросов о здравоохранении ежедневно.

И неудивительно, что люди обращаются к чат-ботам за медицинской помощью, говорит Лукас. — Они могут получить доступ к миллиардам точек данных и агрегировать их в удобоваримом, правдоподобном и убедительном формате, который может дать вам точный совет практически по тому вопросу, который вы задавали, и сделать это уверенно”. Но “коммерческие LLM не готовы к практическому использованию в клинической практике. Полагаться исключительно на результаты работы LLM небезопасно”.

Со временем и модели искусственного интеллекта, и пользователи могут стать достаточно совершенными, чтобы преодолеть разрыв в коммуникациях, о чем свидетельствует исследование Махди, говорит Лукас.

По словам Мишель Ли, исследователя медицинского ИИ из Гарвардской медицинской школы, это исследование подтверждает опасения по поводу безопасности и надежности LLM в уходе за пациентами, которые давно обсуждаются сообществом машинного обучения. Это и другие исследования продемонстрировали слабость ИИ в реальных медицинских условиях, говорит она. Ли и его коллеги опубликовали исследование 3 февраля в журнале Nature Medicine, в котором предлагаются возможные улучшения в обучении, тестировании и внедрении моделей искусственного интеллекта — изменения, которые могут сделать их более надежными в различных медицинских контекстах.

Махди планирует провести дополнительные исследования взаимодействия ИИ на других языках и с течением времени. Полученные результаты могут помочь разработчикам ИИ разработать более эффективные модели, на основе которых люди смогут получать точные ответы.

“Первый шаг — решить проблему измерения”, — говорит Махди. “Мы не измеряли то, что имеет значение”, — именно так искусственный интеллект работает с реальными людьми.

Похожие публикации