ИИ-агенты Alibaba провалили тест на поддержку кода: 75% моделей сломали работающий код

17:45

Айтишников пока не увольняем. Alibaba протестировала агентов ИИ на 100 реальных кодовых базах (поддерживаемые 233 дня). Агенты потерпели сокрушительный провал.

Пройти тесты один раз и написать код легко, а вот поддерживать его в течение 8 месяцев, не сломав всё, ИИ не умеет и терпит крах. 75% моделей ИИ нарушили работавший код во время поддержки. Модели накапливают технические проблемы с каждой новой итерацией. ИИ-агенты пишут «хрупкий» код и жертвуют его качеством ради быстрых результатов. @banksta

Источник: Банкста

#агенты #код #ии #разработка #alibaba #технологии #тестирование