ChatGPT сдал экзамен по радиологии

29 февраля 2024

ChatGPT успешно сдал экзамен по радиологии, продемонстрировав потенциал больших языковых моделей в медицинском контексте. В исследовании использовалось 150 вопросов с несколькими вариантами ответов, имитирующих стиль и сложность экзаменов Канадского Королевского колледжа (Canadian Royal College) и Американского совета по радиологии (American Board of Radiology).

Согласно двум новым исследованиям, опубликованным в научном журнале Radiology, последняя версия ChatGPT прошла экзамен по радиологии, подчеркнув потенциал больших языковых моделей, но также выявив ограничения, которые снижают надежность.

ChatGPT — это чат-бот с искусственным интеллектом (ИИ), который использует модель глубокого обучения для распознавания шаблонов и взаимосвязей между словами в своих обширных данных обучения, чтобы генерировать ответы, подобные человеческим, на основе подсказки. Но поскольку в его обучающих данных нет источника истины, инструмент может генерировать фактически неверные ответы.
ChatGPT недавно был назван самым быстрорастущим потребительским приложением в истории, и подобные чат-боты внедряются в популярные поисковые системы, такие как Google и Bing, которые врачи и пациенты используют для поиска медицинской информации.

Чтобы оценить его эффективность в ответах на экзаменационные вопросы по рентгенологии и изучить сильные и слабые стороны, доктор Бхаяна и его коллеги сначала протестировали ChatGPT на основе GPT-3.5, в настоящее время наиболее часто используемой версии.

Исследователи использовали 150 вопросов с несколькими вариантами ответов, разработанных в соответствии со стилем, содержанием и сложностью экзаменов Канадского Королевского колледжа и Американского совета по радиологии.

Вопросы не включали изображения и были сгруппированы по типам вопросов, чтобы получить представление о производительности: мышление более низкого порядка (воспоминание знаний, базовое понимание) и более высокого порядка (применение, анализ, синтез).

Вопросы мышления более высокого порядка были дополнительно подклассифицированы по типу (описание результатов визуализации, клиническое ведение, расчет и классификация, ассоциации с заболеванием).

Производительность ChatGPT оценивалась в целом, а также по типу вопроса и теме. Также оценивалась уверенность в языке в ответах.

Исследователи обнаружили, что ChatGPT на основе GPT-3.5 правильно ответил на 69% вопросов (104 из 150), что близко к проходному баллу в 70%, используемому Королевским колледжем в Канаде.

Модель относительно хорошо показала себя в вопросах, требующих мышления более низкого порядка (84%, 51 из 61), но испытывала затруднения с вопросами, требующими мышления более высокого порядка (60%, 53 из 89).

В частности, ИИ боролся с вопросами более высокого порядка, включая описание результатов визуализации (61%, 28 из 46), расчет и классификацию (25%, 2 из 8) и применение концепций (30%, 3 из 10). Его плохие результаты в вопросах мышления более высокого порядка неудивительны, учитывая отсутствие предварительной подготовки, связанной с радиологией.

GPT-4 был выпущен в марте 2023 года в ограниченной форме для платных пользователей, в частности, заявляя, что он обладает улучшенными расширенными возможностями рассуждений по сравнению с GPT-3.5.

В последующем исследовании GPT-4 правильно ответил на 81% (121 из 150) тех же вопросов, превзойдя GPT-3.5 и превысив проходной порог в 70%. GPT-4 показал себя намного лучше, чем GPT-3.5, в вопросах мышления более высокого порядка (81%), в частности, в вопросах, связанных с описанием результатов визуализации (85%) и применением понятий (90%).

Полученные данные свидетельствуют о том, что заявленные улучшенные возможности расширенного мышления GPT-4 приводят к повышению производительности в контексте радиологии. Они также предлагают улучшенное контекстуальное понимание терминологии, относящейся к радиологии, включая описания изображений, что имеет решающее значение для обеспечения возможности будущих последующих приложений. GPT-4 не показал улучшения в вопросах мышления более низкого порядка (80% против 84%) и неправильно ответил на 12 вопросов, на которые GPT-3.5 ответил правильно, что вызывает вопросы, связанные с его надежностью для сбора информации.

Опасная тенденция ChatGPT давать неточные ответы, называемые галлюцинациями, менее распространена в GPT-4, но все еще ограничивает возможности использования в медицинском образовании и практике в настоящее время.

Оба исследования показали, что ChatGPT постоянно использует уверенный язык, даже если он неправильный. Это особенно опасно, если полагаться исключительно на информацию, отмечает доктор Бхаяна, особенно для новичков, которые могут не распознать уверенные неправильные ответы как неточные.

Источник: https://medicalinsider.ru/meditsinskaya_tekhnika/radiology-chatgpt-sdal-ekzamen-po-radiologii

Предыдущая новость

9 февраля 2024

Разработаны отечественные рентгеноконтрастные эмболизаты

Эмболизаты — это полимеры, которые используют для предотвращения разрыва сосудов и купирования сгустков капиллярных патологических сосудов (мальформаций). Наибольшую сложность вызывают операции, связанные с эмболизированием патологий кровеносных сосудов головного мозга.

Такие операции проводят с использованием длинных (до 180 см) катетеров, которые вводятся в бедренную вену и доходят до патологического разветвления в голове. Именно поэтому, помимо хорошей контрастности, эмболизат должен обладать достаточной текучестью и не слишком быстрой скоростью полимеризации.

В условиях дефицита импортных рентгеноконтрастных эмболизатов исследователи из НИОХ СО РАН совместно со специалистами ООО «Медин» и хирургами НМИЦ им. ак. Е. Н. Мешалкина разработали отечественный эмболизат.

Российский препарат более чистый по составу, чем импортный, а также будет гораздо дешевле. Как сообщает издание «Наука в Сибири», последняя стадия исследований, включая клинические испытания, завершится уже в 2024 году.

Следующая новость

13 марта 2024

Создана программа для диагностики шизофрении по данным МРТ

Программу-классификатор, способную с точностью 85% диагностировать шизофрению по результатам исследования мозга с помощью МРТ, разработали в НИЦ «Курчатовский институт».

Работа ведётся совместно со специалистами Психиатрической клинической больницы № 1 им. Н.А. Алексеева. С помощью классификатора учёные смогли выделить в мозге 8 регионов, изменения в функционировании которых в подавляющем большинстве случаев говорят о психическом отклонении. Всего же программа анализирует работу более сотни зон головного мозга.

Все новости