Новый бенчмарк ClawWork для оценки ИИ-агентов

вчера 14:00
1 Анализ этих новостей
Появился новый БЕНЧМАРК для ИИ — тест производительности ClawWork проверяет, сможет ли агент заработать больше, чем потратить на работу.

Каждому ИИ-агенту дают $10. После этого он выбирает задания из списка, который охватывает 44 отрасли — от финансов и аналитики до поддержки клиентов и медицины. За их выполнение агенту начисляют условное вознаграждение.

Каждое действие стоит денег. Если модель тратит на токены больше, чем «зарабатывает», баланс уходит в минус. После этого агент отключается.

В ClawWork соревнуются Claude, Gemini, Qwen, Kimi, GLM и другие модели. Условия одинаковые для всех.

Сейчас лидирует Qwen3.5-Plus. Агент смог «заработать» почти $20 тысяч за 198 заданий. У проекта есть таблица результатов, которая обновляется в реальном времени: видны баланс, доходы, расходы и статус выживания.

Голодные игры в мире ИИ 🤓
Источник: Техномотель
При загрузке возникла ошибка!