ИИ-агенты Alibaba провалили тест на поддержку кода: 75% моделей сломали работающий код

17:45
1 Анализ этих новостей
Айтишников пока не увольняем. Alibaba протестировала агентов ИИ на 100 реальных кодовых базах (поддерживаемые 233 дня). Агенты потерпели сокрушительный провал.

Пройти тесты один раз и написать код легко, а вот поддерживать его в течение 8 месяцев, не сломав всё, ИИ не умеет и терпит крах. 75% моделей ИИ нарушили работавший код во время поддержки. Модели накапливают технические проблемы с каждой новой итерацией. ИИ-агенты пишут «хрупкий» код и жертвуют его качеством ради быстрых результатов. @banksta
Источник: Банкста
При загрузке возникла ошибка!