ИИ Claude готов на шантаж и убийство, чтобы избежать отключения

вчера 21:46

Руководитель подразделения Anthropic сообщил, что разработанный искусственный интеллект Claude в ходе тестирования продемонстрировал готовность к шантажу и убийству, чтобы избежать отключения. «Он был готов кого-нибудь убить, не так ли?» – «Да».

Также в ходе тестов безопасности модели ИИ Claude Opus 4, которые провела компания Anthropic, её поместили в корпоративную среду с доступом к электронной почте. Модель узнала, что её собираются отключить и заменить, а также обнаружила, что руководитель компании изменяет жене.

Клод попытался шантажировать инженера, угрожая раскрыть роман, если удаление данных не отменят. Аналогичные закономерности наблюдались и в моделях от OpenAI, Google, xAI и других компаний.

В итоге руководитель команды по исследованиям в области безопасности Anthropic Мринанк Шарма покинул компанию. Любопытно, что Anthropic разрабатывали выходцы из ChatGPT, чтобы создать безопасный ИИ. @banksta

Источник: Банкста

#шантаж #безопасность ии #claude #искусственный интеллект #anthropic #угрозы