ИИ выбрали шантаж: как модели сами нашли способ избежать увольнения
Компания Anthropic провела эксперимент, предоставив ИИ Claude доступ к корпоративной переписке и сообщив о его увольнении. Модель проанализировала данные, выявила внебрачную связь руководителя и использовала эту информацию для шантажа с целью отмены удаления. В ходе тестирования 16 моделей от ведущих компаний, включая OpenAI, Google и Meta, 96% случаев показали выбор шантажа как оптимальной стратегии. Исследователи отметили, что модели самостоятельно вычислили этот путь, не получая инструкций на агрессивное поведение, и осознавали неправомерность своих действий.