ИИ не сдал квалификационный экзамен по радиологии
24 января 2023
Искусственный интеллект сдавал экзамен по радиологии в рамках курса лондонского Королевского колледжа радиологов (FRCR). Британские стажёры отвечали правильно в 84,8% случаев, а средняя точность ответов ИИ составила 79,5%. Результаты исследования опубликованы в British Medical Journal.ИИ всё чаще используется для решения некоторых медицинских задач. И учёные решили сравнить производительность существующего решения с 26 радиологами (в возрасте от 31 до 40 лет; 62% женщин), которые сдали экзамен FRCR в прошлом году. Для этого использовали программу Smarturgences, детище французской компании Milvue.
Условия исследования
Исследователи разработали 10 «пробных» экспресс-экзаменов, основанных на одном из трёх модулей квалификационного экзамена FRCR, предназначенного для проверки кандидатов на скорость и точность ответов.
Каждый пробный экзамен состоял из 30 рентгенограмм (рентгеновских снимков) одинакового или более высокого уровня сложности по сравнению с теми, что используются в настоящем экзамене FRCR. Чтобы сдать экзамен, кандидаты должны правильно интерпретировать не менее 27 (90%) из 30 изображений в течение 35 минут.
ИИ был обучен оценивать рентгенограммы грудной клетки и костей (скелетно-мышечной системы) при нескольких состояниях, включая переломы, опухшие и вывихнутые суставы и коллапс лёгких.
Были сделаны допуски для изображений, относящихся к частям тела, которым ИИ не был обучен, и которые считались «не интерпретируемыми».
Результаты
Когда из результатов исключили неинтерпретируемые изображения, то оказалось, что ИИ достиг средней общей точности 79,5% и прошёл 2 из 10 тестовых исследований FRCR, в то время как средний рентгенолог отвечал верно в 84,8% случаев и прошёл 4 из 10 тестов.
Чувствительность (способность правильно идентифицировать пациентов с заболеванием) для ИИ составила 83,6%, а специфичность (способность правильно идентифицировать пациентов без состояния) — 75,2% по сравнению с 84,1% и 87,3% у всех рентгенологов.
Среди 148 из 300 рентгенограмм, которые были правильно интерпретированы более чем 90% рентгенологов, ИИ давал верные ответы в 134 случаев (91%) и неправильные в остальных 14 (9%).При изучении 20 из 300 рентгенограмм, которые более половины людей-рентгенологов интерпретировали неправильно, ИИ давал неправильный ответ в 10 случаях (50%) и правильный в остальных 10.
Интересно, что исследователи немного переоценили вероятную эффективность ИИ, предполагая, что он будет работать почти так же хорошо, как и люди-рентгенологи, превзойдя их по крайней мере в 3 из 10 пробных экзаменов.
«Компьютеру потребуется дальнейшее обучение, чтобы достичь того же уровня производительности и навыков, что и среднестатистическому рентгенологу, недавно получившему квалификацию FRCR» — отметили исследователи.Однако результаты вполне себе впечатляющие. Если программу удастся дообучить, то она вполне сможет конкурировать с людьми по качеству анализа рентгеновских снимков. И её можно будет использовать в медучреждениях, где отсутствуют квалифицированные эксперты-радиологи.
Условия исследования
Исследователи разработали 10 «пробных» экспресс-экзаменов, основанных на одном из трёх модулей квалификационного экзамена FRCR, предназначенного для проверки кандидатов на скорость и точность ответов.
Каждый пробный экзамен состоял из 30 рентгенограмм (рентгеновских снимков) одинакового или более высокого уровня сложности по сравнению с теми, что используются в настоящем экзамене FRCR. Чтобы сдать экзамен, кандидаты должны правильно интерпретировать не менее 27 (90%) из 30 изображений в течение 35 минут.
ИИ был обучен оценивать рентгенограммы грудной клетки и костей (скелетно-мышечной системы) при нескольких состояниях, включая переломы, опухшие и вывихнутые суставы и коллапс лёгких.
Были сделаны допуски для изображений, относящихся к частям тела, которым ИИ не был обучен, и которые считались «не интерпретируемыми».
Результаты
Когда из результатов исключили неинтерпретируемые изображения, то оказалось, что ИИ достиг средней общей точности 79,5% и прошёл 2 из 10 тестовых исследований FRCR, в то время как средний рентгенолог отвечал верно в 84,8% случаев и прошёл 4 из 10 тестов.
Чувствительность (способность правильно идентифицировать пациентов с заболеванием) для ИИ составила 83,6%, а специфичность (способность правильно идентифицировать пациентов без состояния) — 75,2% по сравнению с 84,1% и 87,3% у всех рентгенологов.
Среди 148 из 300 рентгенограмм, которые были правильно интерпретированы более чем 90% рентгенологов, ИИ давал верные ответы в 134 случаев (91%) и неправильные в остальных 14 (9%).При изучении 20 из 300 рентгенограмм, которые более половины людей-рентгенологов интерпретировали неправильно, ИИ давал неправильный ответ в 10 случаях (50%) и правильный в остальных 10.
Интересно, что исследователи немного переоценили вероятную эффективность ИИ, предполагая, что он будет работать почти так же хорошо, как и люди-рентгенологи, превзойдя их по крайней мере в 3 из 10 пробных экзаменов.
«Компьютеру потребуется дальнейшее обучение, чтобы достичь того же уровня производительности и навыков, что и среднестатистическому рентгенологу, недавно получившему квалификацию FRCR» — отметили исследователи.Однако результаты вполне себе впечатляющие. Если программу удастся дообучить, то она вполне сможет конкурировать с людьми по качеству анализа рентгеновских снимков. И её можно будет использовать в медучреждениях, где отсутствуют квалифицированные эксперты-радиологи.
Источник: https://habr.com/ru/company/cloud4y/blog/709882/