Медицинские LLM: блестящие экзамены, слабые клинические навыки

вчера 15:52

Новое исследование, проведенное в декабре 2025 года, показало неоднозначные результаты применения медицинских больших языковых моделей (LLM). Модели успешно демонстрируют знания, набирая 84–90% на экзаменах, однако их эффективность значительно снижается при решении практических клинических задач и оценке безопасности – от 40% до 69%.

Анализ 39 контрольных тестов, включающих 2,3 миллиона вопросов на 45 языках, выявил, что модели испытывают трудности с диагностикой, разработкой планов лечения и рекомендациями для реальных клинических случаев. Особенно низкие показатели наблюдаются в задачах, требующих клинического мышления и проверки безопасности. Исследователи предостерегают от использования LLM в автономном режиме, подчеркивая необходимость практической оценки и строгого контроля со стороны человека.

Источник: The Next Level

#клинические задачи #безопасность #медицина #llm #искусственный интеллект