Медицинские LLM: блестящие экзамены, слабые клинические навыки
Новое исследование, проведенное в декабре 2025 года, показало неоднозначные результаты применения медицинских больших языковых моделей (LLM). Модели успешно демонстрируют знания, набирая 84–90% на экзаменах, однако их эффективность значительно снижается при решении практических клинических задач и оценке безопасности – от 40% до 69%.
Анализ 39 контрольных тестов, включающих 2,3 миллиона вопросов на 45 языках, выявил, что модели испытывают трудности с диагностикой, разработкой планов лечения и рекомендациями для реальных клинических случаев. Особенно низкие показатели наблюдаются в задачах, требующих клинического мышления и проверки безопасности. Исследователи предостерегают от использования LLM в автономном режиме, подчеркивая необходимость практической оценки и строгого контроля со стороны человека.