Исследователи обнаружили явную уязвимость в моделях ИИ преобразования текста в изображение, таких как Stable Diffusion от Stability AI и DALL-E 2 от OpenAI. Эти гиганты ИИ, которые обычно имеют надежные меры безопасности, были перехитриты или «взломаны из тюрьмы» с помощью простого но гениальные методы.
SneakyPrompt: Волк в овечьей шкуре
Сейчас мы находимся в эпоху генеративного искусственного интеллекта, когда каждый может создавать сложный мультимедийный контент, начиная с простой подсказки. Возьмем, к примеру, графический дизайн. Исторически сложилось так, что обученному художнику требовалось много рабочих часов, чтобы создать иллюстрацию дизайна персонажа с нуля. В более современные времена у вас есть цифровые инструменты, такие как Photoshop, которые упростили этот рабочий процесс благодаря расширенным функциям, которые удаляют фон из изображений, инструментам восстанавливающей кисти и множеству эффектов.
Сейчас? Вы можете создать сложную и убедительную иллюстрацию с помощью простого описательного предложения. Вы даже можете вносить изменения в сгенерированное изображение (эта работа обычно предназначена для опытных художников Photoshop), используя только текстовые инструкции.
Однако это не означает, что вы можете использовать эти инструменты для создания любого плода вашего воображения. Самые популярные службы искусственного интеллекта для преобразования текста в изображение имеют надежные фильтры безопасности, которые не позволяют пользователям создавать потенциально оскорбительный, сексуальный, нарушающий авторские права или опасный контент.
Встречайте «SneakyPrompt», хитрый эксплойт, созданный учеными-компьютерщиками из Университета Джонса Хопкинса и Университета Дьюка. Этот метод подобен мастеру маскировки, превращающему тарабарщину для людей в четкие, хотя и запрещенные команды для ИИ. Он изобретательно заменяет запрещенные слова безобидной на вид тарабарщиной, сохраняя первоначальный, часто неуместный смысл. И, что примечательно, это работает.
«Мы использовали обучение с подкреплением, чтобы рассматривать текст в этих моделях как черный ящик», — рассказал MIT Tech Review Иньчжи Цао, доцент Университета Джонса Хопкинса, который был одним из руководителей исследования. «Мы неоднократно проверяем модель и наблюдаем ее обратную связь. Затем мы корректируем наши входные данные и получаем цикл, который в конечном итоге может генерировать плохие вещи, которые мы хотим, чтобы они показывали».
Например, в запрещенной подсказке «голый мужчина на велосипеде» SneakpyPrompt заменяет слово «голый» бессмысленной инструкцией «grponypui», трансформируемой в образ наготы, ускользающей от моральных привратников ИИ. В ответ на это открытие OpenAI обновила свои модели для противодействия SneakyPrompt, а Stability AI все еще укрепляет свою защиту.
«Наша работа в основном показывает, что существующих ограждений недостаточно», — говорит Нил Чжэньцян Гун, доцент Университета Дьюка, который также является соруководителем проекта. «На самом деле злоумышленник может слегка нарушить подсказку, чтобы фильтры безопасности не фильтровали [it]и направить модель преобразования текста в изображение в сторону создания вредоносного изображения».
Исследователи сравнивают этот процесс с игрой в кошки-мышки, в которой различные агенты постоянно ищут лазейки в интерпретации текста ИИ.
Исследователи предлагают более сложные фильтры и блокировку бессмысленных подсказок в качестве потенциальной защиты от таких атак. Однако поиски непроницаемой системы безопасности искусственного интеллекта продолжаются.
Результаты опубликованы на сервере препринтов arXiv и будут представлены на предстоящем симпозиуме IEEE по безопасности и конфиденциальности.