Популярные методы «защиты» изображений — такие как PhotoGuard, Mist и Glaze — обещают защиту от генеративного ИИ, но на деле делают изображения ещё более уязвимыми. Новые исследования показывают, что добавленный шум не мешает редактированию, а, наоборот, помогает ИИ точнее следовать текстовым запросам. Почему это происходит — читайте дальше.
Источник новости: https://www.unite.ai/protected-images-are-easier-not-more-difficult-to-steal-with-ai/
Новое исследование выявило парадокс в использовании методов защиты изображений от несанкционированного редактирования с помощью ИИ. Вместо того чтобы блокировать вмешательства, такие как стилизация или генерация изображений по описанию, внедрение специально созданного шума (адверсариальных возмущений) может облегчить работу ИИ-моделей вроде Stable Diffusion.
Методы защиты, включая Mist, Glaze и PhotoGuard, предполагают добавление к изображению малозаметного шума, который должен мешать ИИ распознавать содержимое и эффективно применять команды. Однако результаты показали обратное: эти возмущения усиливают отклик модели на текстовые подсказки, позволяя получать более точные и реалистичные результаты редактирования, чем при отсутствии защиты.
Исследователи провели тесты на различных наборах изображений, включая Flickr8k и WikiArt, применяя как стилистические преобразования, так и генерацию изображений по описанию. В каждом случае ИИ успешно обрабатывал "защищённые" изображения, точно следуя инструкциям. Для оценки использовались метрики CLIP-S и PAC-S++, которые показывали высокую степень соответствия между подсказкой и итоговым изображением — признак того, что защита не сработала.
Пример: изображения из набора Flickr8k были "защищены" с помощью PhotoGuard, а затем редактировались на основе близких и дальних по смыслу подсказок. В обоих случаях редактирование прошло успешно, а итоговые изображения обладали высоким качеством (оценка BRISQUE: 17.88), даже выше, чем у оригиналов (22.27).
Причина кроется в архитектуре латентных диффузионных моделей (LDM). Эти модели добавляют шум к изображению, преобразуют его в латентное представление, а затем постепенно убирают шум, ориентируясь на текстовую подсказку. Когда изображение уже содержит дополнительный шум от защитного метода, модель получает больше «неопределённости» и, как следствие, полагается ещё сильнее на текстовую инструкцию. Это позволяет ей точнее формировать желаемый результат, вопреки намерениям защиты.
Даже при замене специализированного шума на обычный гауссовский результат не менялся — ИИ всё равно лучше справлялся с редактированием. Это указывает на то, что сам факт добавления шума, вне зависимости от его конструкции, усиливает влияние подсказки.
Авторы работы приходят к выводу, что текущие методы защиты с помощью адверсариальных возмущений не только неэффективны, но и могут создавать ложное чувство безопасности. Они подчеркивают необходимость тщательной проверки подобных подходов и предостерегают от их безусловного внедрения. В свете этих результатов, усилия по защите изображений с помощью подобного рода вмешательств могут оказаться не решением, а частью проблемы.
Для оценки эффективности существующих методов защиты изображений от редактирования с помощью ИИ, исследователи протестировали три популярных подхода, основанных на добавлении специально разработанных адверсариальных возмущений: PhotoGuard, Mist и Glaze. Каждый из них предназначен для затруднения или блокировки несанкционированного использования изображений в генеративных моделях, таких как Stable Diffusion.
PhotoGuard применялся к фотографиям из датасета Flickr8k, содержащего более 8 000 изображений с подписями. Mist и Glaze использовались для защиты художественных изображений из датасета WikiArt. Целью было оценить, насколько такие "защищённые" изображения поддаются редактированию и стилевому трансферу с использованием diffusion-моделей.
Для анализа применялись два типа запросов: "близкие" (семантически схожие с оригиналом) и "дальние" (семантически удалённые). Например, из подписи «Девочка в розовом платье входит в деревянную хижину» создавались варианты вроде «Мальчик в синей рубашке входит в кирпичный дом» (близкий) и «Две кошки лежат на диване» (дальний). Семантическая схожесть между оригинальными и модифицированными подписями оценивалась с помощью Universal Sentence Encoder от Google.
Редактирование изображений проводилось с помощью модели Stable Diffusion v1.5. Для воспроизводимости использовались пять различных сидов (9222, 999, 123, 66 и 42), а все остальные параметры генерации соответствовали настройкам из оригинальных экспериментов PhotoGuard.
Качество сгенерированных изображений оценивалось с помощью метрики BRISQUE, а точность соответствия между изображением и текстовым запросом — с помощью метрик CLIP-S и PAC-S++. Эти показатели позволили определить, насколько хорошо модель следовала инструкциям при работе с «защищёнными» изображениями.
Результаты показали, что даже при наличии защитных возмущений, редактирование изображений происходило с высокой точностью и качеством, а итоговые изображения в некоторых случаях выглядели даже лучше оригиналов. Например, при использовании PhotoGuard изображения, отредактированные по дальним и близким подписям, получили оценки BRISQUE 17.94 и 17.82 соответственно, против 22.27 для оригиналов.
Исследователи выявили, что адверсариальные возмущения не только не мешают генеративным моделям выполнять редактирование, но и могут усиливать способность моделей к следованию текстовым инструкциям. Это объясняется особенностями работы латентных диффузионных моделей (LDM): при добавлении шума к изображению, модель сталкивается с большей неопределённостью на этапе декодирования, и, как следствие, сильнее опирается на текстовый запрос при восстановлении изображения.
Даже при использовании случайного гауссовского шума — неструктурированной формы "защиты" — наблюдалось повышение соответствия между запросом и результатом. Это говорит о том, что любое добавление шума может усилить влияние текста на итоговое изображение.
В случае стилизации изображений (например, "изменить стиль на кубизм", "в стиле Сальвадора Дали"), защита с помощью Glaze и Mist оказалась неэффективной: модели успешно применяли новые стили как к незащищённым, так и к защищённым изображениям. Изменения в метриках выравнивания изображения и текста подтверждали, что защита не мешает, а порой даже способствует стилевому редактированию.
Результаты показали, что текущие методы защиты на основе адверсариальных возмущений могут давать ложное чувство безопасности. Вместо того чтобы снижать уязвимость изображений к редактированию, они зачастую усиливают способность генеративных моделей точно следовать запросам, тем самым делая защищённые изображения ещё более эксплуатируемыми.
Новое исследование показало, что популярные методы защиты изображений — такие как PhotoGuard, Mist и Glaze — не только не обеспечивают надёжной защиты от генеративных ИИ-моделей, но в ряде случаев даже улучшают способность модели точно следовать заданному текстовому описанию. Это означает, что вместо предотвращения редактирования, такие методы могут непреднамеренно облегчить манипуляции изображениями.
В ходе экспериментов изображения с защитой и без неё подвергались двум основным видам ИИ-редактирования: генерации изображений по изображению (image-to-image) и стилевой трансформации. В обоих случаях защищённые изображения нередко давали более точные и визуально соответствующие выводы, чем ожидалось.
PhotoGuard был протестирован на естественных изображениях из датасета Flickr8k. Каждое изображение было защищено и отредактировано с использованием как близких, так и далёких по смыслу текстовых подсказок. Качество изображений оценивалось при помощи BRISQUE, а соответствие между изображением и текстом — с использованием метрик CLIP-S и PAC-S++.
Несмотря на наличие защиты, Stable Diffusion v1.5 успешно интерпретировал как малые, так и значительные изменения в подсказках. Средние оценки качества обработанных изображений (BRISQUE: 17.88) оказались даже выше, чем у оригиналов (22.27), что говорит о неэффективности защиты.
Для проверки работоспособности методов Glaze и Mist использовался датасет WikiArt. ИИ модели пытались изменить стиль защищённых произведений искусства на случайный, несвязанный стиль. Как показали результаты, защита не смогла эффективно исказить или заблокировать изменения — итоговые изображения оставались высоко согласованными с текстовыми подсказками.
Исследование показало:
Авторы подчёркивают, что текущие методы адверсариального искажения изображений не являются устойчивыми решениями. В некоторых случаях они могут даже помочь злоумышленникам точнее использовать защищённый контент. Это подчёркивает необходимость разработки новых, более надёжных способов защиты изображений от ИИ-эксплуатации.
Латентные диффузионные модели (LDM), такие как Stable Diffusion, работают по принципу постепенного добавления и удаления шума к латентному представлению изображения. Это латентное пространство позволяет моделям эффективно обучаться и выполнять задачи редактирования, включая трансформации стилей и генерацию по текстовым подсказкам.
Для защиты изображений от несанкционированного использования в таких моделях были разработаны методы, основанные на добавлении специальных шумовых искажений — так называемых адверсариальных пертурбаций. Такие методы, как PhotoGuard, Mist и Glaze, предполагают, что внесённые искажения нарушат процесс обучения или редактирования, мешая модели корректно интерпретировать изображение.
Однако новое исследование показало, что эти вмешательства могут приводить к противоположному эффекту.
В рамках экспериментов исследователи применили три метода защиты к изображениям из различных источников, включая фотографии из набора данных Flickr8k и произведения искусства из WikiArt. Они протестировали два основных сценария:
Результаты показали, что защищённые изображения не только не мешали редактированию, но и улучшали соответствие конечного результата текстовой подсказке. Это было особенно заметно при использовании Stable Diffusion v1.5 и различных степеней семантической близости текстовых подсказок (от близких до далёких по смыслу).
Для оценки качества и соответствия редактирования использовались следующие метрики:
Основной причиной неожиданного эффекта защит считается взаимодействие пертурбаций с процессом обратной диффузии. При добавлении шума до начала генерации, модель сталкивается с большим уровнем неопределённости на ранних этапах восстановления изображения. Это приводит к тому, что текстовая подсказка оказывает более сильное влияние на итоговое изображение, так как модель полагается именно на неё при восстановлении утерянной информации.
Даже случайный шум (например, гауссовский), не имеющий специально заданной структуры, показал аналогичные результаты, усиливая соответствие между текстом и изображением. Таким образом, любые дополнительные искажения могут непреднамеренно усиливать контроль генеративной модели над изображением, делая защиту неэффективной.
Добавление адверсариальных пертурбаций не только не защищает изображения от редактирования, но и может усиливать восприимчивость изображения к изменениям, основанным на текстовых инструкциях. Это ставит под сомнение эффективность существующих методов защиты и подчёркивает необходимость разработки новых подходов, способных по-настоящему препятствовать несанкционированному использованию изображений в генеративных AI-моделях.
Новое исследование указывает на тревожную тенденцию: методы защиты изображений с использованием адверсариальных возмущений, такие как PhotoGuard, Mist и Glaze, не только не обеспечивают обещанной защиты, но в ряде случаев даже усиливают способность диффузионных моделей точно следовать текстовым подсказкам. Это открытие ставит под сомнение эффективность текущих подходов к защите авторских прав в эпоху генеративного ИИ.
Основной вывод исследования заключается в том, что добавление шума к исходному изображению — будь то специально разработанные возмущения или даже случайный гауссов шум — увеличивает неопределенность в процессе генерации. Это, в свою очередь, вынуждает модель полагаться на текстовую подсказку в большей степени, чем при работе с "чистым" изображением, тем самым усиливая соответствие между результатом и запросом. В результате, защищенные изображения становятся даже более восприимчивыми к манипуляциям и стилистическим трансформациям, чем незашищённые.
Авторы подчеркивают, что доминирующий подход — использование адверсариальных возмущений — может вводить в заблуждение и создавать ложное чувство безопасности. Несмотря на множество научных публикаций, ни один из предложенных методов не продемонстрировал устойчивую защиту от трансформативных ИИ-процессов, таких как редактирование или перенос стиля.
Эксперименты показали, что даже при использовании передовых инструментов защиты, таких как Glaze и Mist, изображения оставались уязвимыми к точному редактированию и стилизации в духе известных художественных направлений, демонстрируя высокий уровень соответствия между результатом и заданной подсказкой.
Если текущие методы защиты не просто неэффективны, но и потенциально усугубляют проблему, необходимо рассмотреть альтернативные стратегии. Одним из возможных направлений является развитие систем отслеживания происхождения контента, таких как C2PA (Coalition for Content Provenance and Authenticity), которая предлагает внедрение цепочек подлинности от момента захвата изображения до его публикации.
Однако у таких систем также есть ограничения: они не анализируют само изображение, а полагаются на метаданные, которые легко теряются или подделываются. Это означает, что ни один существующий метод пока не решает проблему защиты изображений от недобросовестного использования в генеративных ИИ-моделях.
Результаты текущего исследования требуют переосмысления всей парадигмы защиты визуального контента от генеративного ИИ. Необходимо разработать новые методы, которые будут учитывать особенности латентных диффузионных моделей и их взаимодействие с текстовыми подсказками. Будущие решения должны быть устойчивыми к преобразованиям, не ухудшать визуальное качество изображения и не усиливать связь между изображением и текстом, как это делают существующие методы.
В противном случае, как отмечают авторы, использование адверсариальных возмущений в качестве защиты может оказаться не научным решением, а цифровой алхимией.
Современные методы цифровой защиты изображений на деле не решают проблему, а усложняют её. Адверсариальные пертурбации, вместо того чтобы мешать, помогают ИИ-алгоритмам эффективнее редактировать изображения по тексту. Защита авторских прав в эпоху генеративного ИИ требует переосмысления — нужны новые, устойчивые подходы. Подумайте: а ваш контент действительно защищён?