ChatGPT успешно сдал экзамен по радиологии, продемонстрировав потенциал больших языковых моделей в медицинском контексте. В исследовании использовалось 150 вопросов с несколькими вариантами ответов, имитирующих стиль и сложность экзаменов Канадского Королевского колледжа (Canadian Royal College) и Американского совета по радиологии (American Board of Radiology).
Согласно двум новым исследованиям, опубликованным в научном журнале Radiology, последняя версия ChatGPT прошла экзамен по радиологии, подчеркнув потенциал больших языковых моделей, но также выявив ограничения, которые снижают надежность.
ChatGPT — это чат-бот с искусственным интеллектом (ИИ), который использует модель глубокого обучения для распознавания шаблонов и взаимосвязей между словами в своих обширных данных обучения, чтобы генерировать ответы, подобные человеческим, на основе подсказки. Но поскольку в его обучающих данных нет источника истины, инструмент может генерировать фактически неверные ответы.
ChatGPT недавно был назван самым быстрорастущим потребительским приложением в истории, и подобные чат-боты внедряются в популярные поисковые системы, такие как Google и Bing, которые врачи и пациенты используют для поиска медицинской информации.
Чтобы оценить его эффективность в ответах на экзаменационные вопросы по рентгенологии и изучить сильные и слабые стороны, доктор Бхаяна и его коллеги сначала протестировали ChatGPT на основе GPT-3.5, в настоящее время наиболее часто используемой версии.
Исследователи использовали 150 вопросов с несколькими вариантами ответов, разработанных в соответствии со стилем, содержанием и сложностью экзаменов Канадского Королевского колледжа и Американского совета по радиологии.
Вопросы не включали изображения и были сгруппированы по типам вопросов, чтобы получить представление о производительности: мышление более низкого порядка (воспоминание знаний, базовое понимание) и более высокого порядка (применение, анализ, синтез).
Вопросы мышления более высокого порядка были дополнительно подклассифицированы по типу (описание результатов визуализации, клиническое ведение, расчет и классификация, ассоциации с заболеванием).
Производительность ChatGPT оценивалась в целом, а также по типу вопроса и теме. Также оценивалась уверенность в языке в ответах.
Исследователи обнаружили, что ChatGPT на основе GPT-3.5 правильно ответил на 69% вопросов (104 из 150), что близко к проходному баллу в 70%, используемому Королевским колледжем в Канаде.
Модель относительно хорошо показала себя в вопросах, требующих мышления более низкого порядка (84%, 51 из 61), но испытывала затруднения с вопросами, требующими мышления более высокого порядка (60%, 53 из 89).
В частности, ИИ боролся с вопросами более высокого порядка, включая описание результатов визуализации (61%, 28 из 46), расчет и классификацию (25%, 2 из 8) и применение концепций (30%, 3 из 10). Его плохие результаты в вопросах мышления более высокого порядка неудивительны, учитывая отсутствие предварительной подготовки, связанной с радиологией.
GPT-4 был выпущен в марте 2023 года в ограниченной форме для платных пользователей, в частности, заявляя, что он обладает улучшенными расширенными возможностями рассуждений по сравнению с GPT-3.5.
В последующем исследовании GPT-4 правильно ответил на 81% (121 из 150) тех же вопросов, превзойдя GPT-3.5 и превысив проходной порог в 70%. GPT-4 показал себя намного лучше, чем GPT-3.5, в вопросах мышления более высокого порядка (81%), в частности, в вопросах, связанных с описанием результатов визуализации (85%) и применением понятий (90%).
Полученные данные свидетельствуют о том, что заявленные улучшенные возможности расширенного мышления GPT-4 приводят к повышению производительности в контексте радиологии. Они также предлагают улучшенное контекстуальное понимание терминологии, относящейся к радиологии, включая описания изображений, что имеет решающее значение для обеспечения возможности будущих последующих приложений. GPT-4 не показал улучшения в вопросах мышления более низкого порядка (80% против 84%) и неправильно ответил на 12 вопросов, на которые GPT-3.5 ответил правильно, что вызывает вопросы, связанные с его надежностью для сбора информации.
Опасная тенденция ChatGPT давать неточные ответы, называемые галлюцинациями, менее распространена в GPT-4, но все еще ограничивает возможности использования в медицинском образовании и практике в настоящее время.
Оба исследования показали, что ChatGPT постоянно использует уверенный язык, даже если он неправильный. Это особенно опасно, если полагаться исключительно на информацию, отмечает доктор Бхаяна, особенно для новичков, которые могут не распознать уверенные неправильные ответы как неточные.