Незаметные дипфейки: как небольшие ИИ-манипуляции представляют большую угрозу

Михаил Альмаров
Icon
8
Icon
Новости
Icon
8/6/2025 15:25
News Main Image

Современные дипфейки становятся всё менее заметными, и в этом их главная угроза. Визуальные манипуляции, не затрагивающие личность, но меняющие эмоциональный или смысловой контекст изображения, труднее обнаружить как людям, так и алгоритмам. Эти "мягкие" подмены, созданные с помощью ИИ-моделей вроде ChatGPT и Gemini, обладают потенциалом глубоко искажать восприятие реальности, что делает их особенно опасными для общества и цифрового пространства.
Источник новости: https://www.unite.ai/smaller-deepfakes-may-be-the-bigger-threat/



Эволюция угроз, связанных с дипфейками

Незаметные изменения как новая форма дипфейков

Современные инструменты ИИ, такие как ChatGPT и Google Gemini, позволяют создавать дипфейки, которые не просто заменяют лица, а переписывают весь визуальный контекст изображения. С помощью изменений в жестах, предметах и фонах такие манипуляции могут быть практически незаметны как для человека, так и для специализированных систем обнаружения.

Если ранее дипфейки ассоциировались с откровенно манипулятивным контентом — от политических подделок до несанкционированной порнографии, — то теперь наблюдается переход к более тонким, но не менее опасным формам подделок. Эти изменения часто не бросаются в глаза, но способны искажать восприятие и подменять смысл изображения.

Исторический контекст и культурные параллели

Подобные методы манипуляций не новы. Ещё в советскую эпоху Иосиф Сталин активно использовал фотомонтаж для удаления опальных соратников с официальных снимков. Эти "исчезновения" иллюстрируют, как визуальные изменения могут переписать коллективную память, оставаясь незамеченными.

Компьютерное зрение, обучающееся на больших объемах данных, также перенимает такие паттерны. Всё чаще визуальные маркеры, свойственные повседневной фотографии (например, изображения со смартфонов), становятся частью семантической основы ИИ, даже если они неуместны в конкретном контексте.

Исследование MultiFakeVerse: новая угроза

Австралийские исследователи из Monash University и Curtin University разработали датасет MultiFakeVerse — коллекцию из 845 826 изображений, полученных с помощью vision-language моделей. Эти изображения содержат тонкие изменения, направленные на изменение контекста, эмоций или нарратива сцены, при этом сохраняя визуальную идентичность объекта.

Изменения могли быть минимальными — например, удаление стетоскопа с шеи врача, что снижает уровень воспринимаемой профессиональности, или замена блокнота на планшет без заметной смысловой подоплеки. Но даже такие "мелочи" способны изменить восприятие изображённого человека или сцены в целом.

Трудности обнаружения

В эксперименте с участием людей точность определения поддельных изображений составила лишь 61,67%. Более того, участники с трудом определяли, какие именно части изображения были изменены. Современные системы выявления дипфейков, обученные на более явных манипуляциях, также показали низкие результаты. Даже после дообучения на новом датасете эффективность оставалась недостаточной.

Семантическое воздействие и этические аспекты

Для оценки смысловых сдвигов применялся анализ с помощью модели ShareGPT-4V. Изменения затрагивали такие аспекты, как эмоции, идентичность, динамизм сцены, намерения создателя и этические последствия. В некоторых случаях манипуляции оценивались как этически тревожные, особенно если они влияли на восприятие власти, уязвимости или профессионализма субъекта.

Таким образом, MultiFakeVerse демонстрирует, что угроза дипфейков эволюционирует от очевидных подделок к едва заметным, но мощным инструментам искажения действительности. Это вызывает необходимость пересмотра подходов к обнаружению и регулированию подобных технологий.

Исследование MultiFakeVerse выявляет новые угрозы

Глубокие фейки нового поколения

Современные инструменты разговорного ИИ, такие как ChatGPT и Google Gemini, используются для создания глубоких фейков, которые не изменяют лица, а вносят более тонкие правки — меняют жесты, реквизит и фон. Эти изменения нарушают восприятие контекста изображения, вводя в заблуждение не только людей, но и системы обнаружения фейков.

Если ранее глубокие фейки ассоциировались с явными подделками — политической пропагандой или несанкционированным ИИ-порно, — то новые методы манипуляции работают на более глубоком уровне: они изменяют эмоциональный контекст и смысл сцены, не затрагивая идентичность изображённого человека.

Новый датасет MultiFakeVerse

Австралийские исследователи из Monash University и Curtin University разработали новый масштабный датасет под названием MultiFakeVerse, включающий 845 826 изображений. Он создан с помощью vision-language моделей (VLM), таких как Gemini-2.0-Flash и ChatGPT-4o, и призван выявить, насколько опасны тонкие визуальные и концептуальные манипуляции.

Редакции касаются выражения лица, позы, одежды, объектов взаимодействия и фоновых элементов, изменяя восприятие эмоций, статуса, намерений и даже этических аспектов изображений. В некоторых случаях правки затрагивали до 80% изображения.

Ошибки распознавания: люди и ИИ уязвимы

В ходе тестирования люди смогли правильно определить фейковые изображения лишь в 61.67% случаев, а точность локализации манипулируемых областей составила всего 24.96%. Даже современные системы обнаружения глубоких фейков, такие как CnnSpot, TruFor и SIDA, показали низкие результаты, особенно в режиме zero-shot (без дополнительного обучения).

После обучения на MultiFakeVerse точность моделей улучшилась, но результаты всё равно остались далеки от идеала. Например, SIDA-13B после адаптации достигла лишь 24.74% по метрике IoU, что указывает на слабую способность определять изменённые участки.

Семантические и этические последствия

С помощью моделей анализа зрительного восприятия исследователи классифицировали манипуляции по их влиянию на восприятие. Изменения касались шести категорий: эмоции, идентичность, динамика власти, повествование, предполагаемое намерение и этические последствия. Некоторые правки были оценены как "убеждающие" или "обманчивые", а небольшая часть — как вызывающая серьёзные этические опасения.

Вызов для будущего

Исследование показало, что новая форма фейков — "нарративные манипуляции" — представляет собой долгосрочную угрозу. В отличие от грубых подделок, эти изменения труднее обнаружить и легче внедряются в повседневное медиа-пространство. MultiFakeVerse демонстрирует, что даже незначительные визуальные изменения могут со временем подрывать доверие к визуальной информации, особенно если они массово и незаметно распространяются в сети.

Почему незаметные дипфейки труднее распознать

Манипуляции, не затрагивающие идентичность

Современные инструменты генерации изображений на базе языково-визуальных моделей (VLM), такие как ChatGPT и Gemini, позволяют создавать дипфейки, которые не изменяют лицо или личность человека, а модифицируют контекст — например, выражение лица, позу, взгляд, одежду, предметы вокруг человека или фон изображения. Эти "мелкие" правки могут радикально изменить смысл сцены, не вызывая подозрений у зрителя.

В отличие от традиционных дипфейков, которые подделывают личность, такие изменения часто остаются незамеченными как для человеческого глаза, так и для AI-детекторов. Это делает их особенно опасными: они не выглядят как очевидные фальшивки и, следовательно, могут более эффективно манипулировать восприятием.

Эффект газлайтинга и культурная устойчивость изменений

Если грубые дипфейки можно сравнить с нападением, то незаметные изменения в визуальных данных действуют скорее как газлайтинг — они медленно и последовательно подрывают доверие к визуальной информации. Подобные методы манипуляции использовались еще в сталинскую эпоху, когда "неугодные" фигуры исчезали с фотографий, перезаписывая историю. Такие практики формируют культурные и визуальные шаблоны, которые затем закрепляются в обучающих датасетах компьютерного зрения, усиливая эффект.

Трудности для детекторов и людей

Исследование с использованием нового датасета MultiFakeVerse показало, что как люди, так и современные модели распознавания дипфейков с трудом выявляют такие тонкие изменения. В эксперименте люди правильно определяли фальшивку лишь в 61,67% случаев и редко могли точно указать, какая часть изображения была изменена. Среднее значение перекрытия между предполагаемыми и реальными зонами манипуляции составило всего 24,96%.

Автоматические системы, обученные на традиционных дипфейках (вроде подмены лиц), также показали низкие результаты при работе с MultiFakeVerse, даже после дополнительного обучения. Например, модель SIDA-13B после тонкой настройки достигла лишь 39,40 по F1-метрике и 24,74 по IoU, что указывает на слабую способность локализовать изменения.

Подмена смысла без потери визуального качества

Многие правки в изображениях MultiFakeVerse были минимальны по площади, но кардинально меняли интерпретацию сцены. Так, удаление стетоскопа у врача или замена блокнота на планшет могли снизить уровень доверия к изображаемому человеку. Генерация заголовков и последующий анализ с помощью Long-CLIP показали, что даже небольшие изменения объектов рядом с человеком влекут за собой значительные сдвиги в восприятии содержания.

Новая форма угрозы

В отличие от громких и очевидных дипфейков, "тихие" визуальные манипуляции не только сложны для обнаружения, но и могут накапливаться со временем, медленно и незаметно искажая общественное восприятие реальности. Это делает их особенно опасными: они не вызывают скандалов, но подрывают доверие к визуальной информации на глубоком уровне.

Техническая реализация

Используемые данные и модели

Для создания датасета MultiFakeVerse исследователи использовали четыре набора реальных изображений: EMOTIC, PISC, PIPA и PIC 2.0. Из 86,952 оригинальных изображений было сгенерировано 758,041 манипулированных версии, в результате чего общий объём составил 845,826 изображений. Генерация производилась с помощью моделей Gemini-2.0-Flash и ChatGPT-4o, каждая из которых предлагала по шесть минимальных правок к каждому изображению. Эти правки были направлены на изменение восприятия главного персонажа изображения: например, делая его наивным, гордым, раскаивающимся или незаинтересованным.

Для точного применения изменений использовались референцирующие выражения — фразы, однозначно указывающие на объект редактирования. Затем для внесения визуальных изменений применялись модели GPT-Image-1, Gemini-2.0-Flash-Image-Generation и ICEdit. Лучшие результаты показала Gemini-2.0-Flash, создавая естественные правки без артефактов.

Оценка визуального качества

Качество изображений в MultiFakeVerse оценивалось по следующим метрикам:

  • SSIM (Индекс структурного сходства): 0.5774 — умеренное сходство между оригиналом и редактированной версией.
  • FID (Fréchet Inception Distance): 3.30 — высокая визуальная реалистичность и разнообразие.
  • PSNR (Отношение сигнал/шум): 66.30 дБ — высокая степень сохранения визуальной чёткости.

Категоризация и масштаб изменений

Изменения классифицировались по трём уровням:

  • На уровне человека — выражение лица, поза, взгляд, одежда.
  • На уровне объектов — предметы, с которыми взаимодействует человек.
  • На уровне сцены — фон и элементы окружения.

Примерно треть всех правок касалась только человека, около пятой части — сцены, и около шестой — объектов.

Для оценки семантических сдвигов создавались подписи к оригинальным и изменённым изображениям при помощи модели ShareGPT-4V, а затем их представления сравнивались с помощью Long-CLIP. Наибольшие изменения наблюдались в случаях, когда манипуляции затрагивали объекты, находящиеся рядом с человеком.

Оценка восприятия и этических аспектов

Gemini-2.0-Flash был использован для анализа влияния правок на восприятие по шести направлениям: эмоции, личность, власть, сюжет, намерение и этические риски. Часто встречались изменения, вызывающие ассоциации с "дружелюбным", "уязвимым" или "профессиональным". Большинство правок вызывали лёгкие этические опасения, но некоторые — умеренные или серьёзные.

Аппаратные и финансовые ресурсы

Создание датасета потребовало значительных вычислительных ресурсов:

  • Более 845,000 API-запросов к моделям Gemini и GPT, что стоило примерно $1,000.
  • Генерация изображений с помощью Gemini — около $2,867.
  • Генерация через GPT-Image-1 — около $200.
  • ICEdit использовалась локально на GPU NVIDIA A6000 и завершила задачу за 24 часа.

Результаты

Исследование восприятия человеком

В пользовательском исследовании участвовали 18 человек, которым показывали 50 изображений (реальные и фейковые). Участники правильно определяли подделки с точностью 61.67%. При этом среднее значение пересечения предсказанных и реальных областей изменений составило всего 24.96%, что указывает на трудность визуального выявления правок.

Производительность систем детекции

Тестирование проводилось с использованием моделей CnnSpot, AntifakePrompt, TruFor и SIDA:

  • В режиме zero-shot лучшую производительность показал AntifakePrompt — 66.87% точности и F1-метрика 55.55%.
  • После дообучения CnnSpot превзошёл SIDA по точности (на 1.92%) и F1-метрике (на 1.97%).

Модель SIDA-13B в zero-shot достигла:

  • IoU: 13.10
  • F1: 19.92
  • AUC: 14.06

После fine-tuning показатели улучшились до:

  • IoU: 24.74
  • F1: 39.40
  • AUC: 37.53

Тем не менее, даже после дообучения модели испытывали сложности в точной локализации изменений, что демонстрирует слабость текущих подходов к обнаружению таких тонких правок.

Последствия и будущие угрозы

Разработка и анализ датасета MultiFakeVerse поднимают тревожные вопросы о будущем визуальной информации и способности как людей, так и алгоритмов различать правду и манипуляцию. Исследование демонстрирует, что даже минимальные изменения в изображениях — такие как удаление стетоскопа у врача или изменение фона — могут существенно повлиять на восприятие личности, эмоций, сценария и даже этического контекста сцены.

С текущим развитием генеративных моделей, таких как ChatGPT и Gemini, становится всё проще производить высококачественные, но труднообнаружимые подделки. Эти "мягкие" фальсификации отличаются от привычных "грубых" дипфейков: они не изменяют лицо или голос, а тонко трансформируют контекст, создавая новую — и зачастую вводящую в заблуждение — интерпретацию реальности.

Опасность заключается в кумулятивном эффекте таких изменений. Одно незначительное редактирование может показаться безвредным, но в совокупности они формируют искаженную картину мира, особенно если распространяются массово через социальные сети, новостные платформы или персональные фотопотоки. Это явление напоминает феномен "газлайтинга", где восприятие действительности подрывается незаметными, но постоянными искажениями.

Ограниченность существующих систем обнаружения

Системы обнаружения дипфейков, разработанные для выявления более очевидных подделок (например, подмены лиц или грубого монтажа), оказались практически бессильны против контекстуальных и семантических манипуляций, представленных в MultiFakeVerse. Даже после дообучения на новом датасете такие системы, как CNNSpot и SIDA-13B, смогли лишь незначительно повысить точность обнаружения. Это говорит о фундаментальной нехватке архитектурных и методологических подходов к выявлению "мягких" фальсификаций.

Этические и социальные риски

Авторы исследования отмечают, что многие из представленных манипуляций могут быть оценены как этически допустимые или эстетически мотивированные. Однако даже минимальные сдвиги в восприятии — например, придание человеку черт наивности или вины — могут использоваться для манипуляции общественным мнением, дискредитации личностей или создания ложных нарративов.

Особенно тревожно то, что такие изменения могут быть внедрены без ведома изображённых людей, и последствия этого могут проявляться не сразу, а спустя длительное время, когда ложные образы укоренятся в общественном сознании.

Перспективы развития и необходимость новых решений

Исследование подчеркивает необходимость разработки новых подходов к обнаружению фальсифицированного контента, способных распознавать не только пиксельные несоответствия, но и семантические сдвиги в изображениях. Такие системы должны учитывать контекст, эмоции, взаимодействия объектов и людей, а также возможную цель манипуляции.

Также важно повысить осведомлённость пользователей о существовании "мягких" дипфейков и внедрять инструменты верификации изображений на уровне платформ и устройств. Без этого общество может столкнуться с постепенной эрозией доверия к визуальной информации — основе современного цифрового взаимодействия.

Даже незначительные манипуляции в изображениях оказываются мощным инструментом искажения правды. Чем тоньше фейк — тем опаснее он для общества. MultiFakeVerse показывает, что нынешние подходы к обнаружению устарели и требуют пересмотра. Нам нужно не только развивать технологии защиты, но и повышать осознанность пользователей. Будущее визуального доверия зависит от того, насколько быстро мы сможем осознать и ответить на эту тихую, но нарастающую угрозу. Призыв к действиям: Учитесь критически оценивать визуальные материалы, следите за развитием инструментов выявления визуальных манипуляций, призывайте к этичному использованию ИИ и прозрачности на платформах социальных медиа.