Публикация была переведена автоматически. Исходный язык: Английский
Почему искусственный интеллект терпит неудачу В сравнении с рентгенологами?
Основные причины, влияющие на эффективность диагностики, которые снижают точность как для людей, так и для машин. Какие именно? Вот они.
Набор данных:
28 278 скрининговых маммограмм (исследование Калифорнийского университета в Лос-Анджелесе, 2010-2019).
Модели: 11 лучших алгоритмов для решения задач мечты + ансамбль.
Результат: диагностика рака молочной железы в течение 1 года.
В каких случаях рентгенологи терпят неудачу
→ Высокая сила сжатия: ↓ специфичность (-1,3% по сравнению с SD)
→ Большая толщина груди: ↓ специфичность (+1,1% по сравнению с SD)
→ Более старая версия аппарата: ↓ как чувствительность, так и специфичность
→ Больший уровень шума / меньшая относительная экспозиция: ↓ специфичность
Где искусственный интеллект дает сбой
→ Более высокая экспозиция: ↓ Специфичность искусственного интеллекта (-4,5% на SD)
→ Больший размер лепестка: ↓ специфичность искусственного интеллекта (-1,4%)
→ Колебания шума / относительные сдвиги экспозиции: нестабильная производительность
→ Более старая версия аппарата: ↓ Чувствительность и специфичность искусственного интеллекта
→ Сила сжатия: практически не влияет (и в этом проблема!)
Искусственный интеллект упускает контекстуальные подсказки, на которые полагаются люди - например, накладывающиеся друг на друга узоры тканей, скрывающие повреждения.
→ Толщина груди: почти не влияет
Вывод довольно ясен:
1. Рентгенологи терпят неудачу, когда меняется внешний вид (форма, перекрытие, видимость).
2. Искусственный интеллект терпит неудачу, когда меняется распределение пикселей (интенсивность, шум, экспозиция, масштаб).
И это убедительно подтверждает результаты исследований, показывающих, что ИИ + рентгенолог достигают значительно более высокой чувствительности, чем каждый из них по отдельности, потому что они пропускают и обнаруживают разные вещи. В сочетании они дают гораздо более полную картину.
Это означает, что будущее действительно за человеком, который находится в курсе событий.
Why AI fails VS why radiologists fail
The top reasons - with their impacts on diagnostic performance - that degrade accuracy for both humans and machines. Which ones? Here they are.
The dataset:
28,278 screening mammograms (UCLA cohort, 2010–2019).
The models: Top 11 DREAM Challenge algorithms + ensemble.
Outcome: breast cancer diagnosis within 1 year.
Where Radiologists Fail
→ High compression force: ↓ specificity (−1.3% per SD)
→ Larger breast thickness: ↓ specificity (+1.1% per SD)
→ Older machine version: ↓ both sensitivity and specificity
→ More noise / lower relative exposure: ↓ specificity
Where AI Fails
→ Higher exposure delivered: ↓ AI specificity (−4.5% per SD)
→ Larger paddle size: ↓ AI specificity (−1.4%)
→ Noise variations / relative exposure shifts: inconsistent performance
→ Older machine version: ↓ AI sensitivity and specificity
→ Compression force: essentially no effect (and that’s the problem!)
AI misses contextual cues humans rely on - like overlapping tissue patterns that hide lesions.
→ Breast thickness: almost no effect
The conclusion is pretty clear:
1. Radiologists fail when the appearance changes (shape, overlap, visibility).
2. AI fails when the pixel distribution changes (intensity, noise, exposure, scale).
And this strongly supports the papers showing that AI + radiologist achieves dramatically higher sensitivity than either alone - because they miss and detect different things. Combined, they produce a much more complete picture.
Which means the future really is human-in-the-loop.
DOI 10.1148/ryai.240861