Появился новый
БЕНЧМАРК для ИИ — тест производительности ClawWork проверяет, сможет ли агент заработать
больше, чем
потратить на работу.
Каждому ИИ-агенту дают
$10. После этого он выбирает задания из списка, который охватывает 44 отрасли — от финансов и аналитики до поддержки клиентов и
медицины. За их выполнение агенту начисляют условное вознаграждение.
Каждое действие стоит
денег. Если модель тратит на токены больше, чем «зарабатывает», баланс уходит в минус. После этого агент
отключается.
В ClawWork
соревнуются Claude, Gemini, Qwen, Kimi, GLM и другие модели. Условия
одинаковые для всех.
Сейчас лидирует
Qwen3.5-Plus. Агент смог «заработать» почти
$20 тысяч за 198 заданий. У проекта есть
таблица результатов, которая обновляется в
реальном времени: видны баланс, доходы, расходы и
статус выживания.
Голодные игры в мире ИИ 🤓