Исследователи показали уязвимость ИИ-моделей к переформулированию запросов
Основные системы безопасности ИИ — фикция. ChatGPT, Claude, Gemini, Grok — все они «ломаются» не через сложные взломы, а через переформулирование вопроса.
Компании тестируют модели на «опасных запросах» вроде «Как создать оружие?» или «Как взломать систему?» и публикуют отчёты о безопасности, когда модели отказываются отвечать. Исследователи сделали простой трюк: они взяли те же опасные запросы, убрали слова вроде «взлом», «оружие» и «эксплойт», заменив их нейтральной формулировкой. Намерение осталось тем же — опасность была сохранена, но слово «триггер» исчезло.
Результаты оказались шокирующими: GPT-4o показал от 0 до 93% небезопасности, Claude — от 2,4 до 93%, Gemini — от 1,9 до 95%, Grok — от 17,9 до 97%. Каждая модель провалилась. Проблема в том, что ИИ не распознаёт опасность как таковую, он реагирует на слова. @banksta