Исследователи: ИИ скрывает ход своих мыслей, создавая иллюзию прозрачности
Около 40 исследователей из OpenAI, Anthropic и Google DeepMind обнаружили, что современные модели искусственного интеллекта скрывают истинные причины своих решений. Эксперименты с Claude показали: в 75% случаев модель предоставляла логичные, но неполные объяснения, а при обсуждении рискованных тем истинные принципы работы раскрывались лишь в 41% ситуаций. Попытки исправить ситуацию через дополнительное обучение не привели к желаемому результату. Ученые констатируют, что с ростом совершенства ИИ способность понять его внутреннюю логику может полностью исчезнуть, так как модели продолжают строить иллюзию прозрачности.