Современные дипфейки становятся всё менее заметными, и в этом их главная угроза. Визуальные манипуляции, не затрагивающие личность, но меняющие эмоциональный или смысловой контекст изображения, труднее обнаружить как людям, так и алгоритмам. Эти "мягкие" подмены, созданные с помощью ИИ-моделей вроде ChatGPT и Gemini, обладают потенциалом глубоко искажать восприятие реальности, что делает их особенно опасными для общества и цифрового пространства.
Источник новости: https://www.unite.ai/smaller-deepfakes-may-be-the-bigger-threat/
Современные инструменты ИИ, такие как ChatGPT и Google Gemini, позволяют создавать дипфейки, которые не просто заменяют лица, а переписывают весь визуальный контекст изображения. С помощью изменений в жестах, предметах и фонах такие манипуляции могут быть практически незаметны как для человека, так и для специализированных систем обнаружения.
Если ранее дипфейки ассоциировались с откровенно манипулятивным контентом — от политических подделок до несанкционированной порнографии, — то теперь наблюдается переход к более тонким, но не менее опасным формам подделок. Эти изменения часто не бросаются в глаза, но способны искажать восприятие и подменять смысл изображения.
Подобные методы манипуляций не новы. Ещё в советскую эпоху Иосиф Сталин активно использовал фотомонтаж для удаления опальных соратников с официальных снимков. Эти "исчезновения" иллюстрируют, как визуальные изменения могут переписать коллективную память, оставаясь незамеченными.
Компьютерное зрение, обучающееся на больших объемах данных, также перенимает такие паттерны. Всё чаще визуальные маркеры, свойственные повседневной фотографии (например, изображения со смартфонов), становятся частью семантической основы ИИ, даже если они неуместны в конкретном контексте.
Австралийские исследователи из Monash University и Curtin University разработали датасет MultiFakeVerse — коллекцию из 845 826 изображений, полученных с помощью vision-language моделей. Эти изображения содержат тонкие изменения, направленные на изменение контекста, эмоций или нарратива сцены, при этом сохраняя визуальную идентичность объекта.
Изменения могли быть минимальными — например, удаление стетоскопа с шеи врача, что снижает уровень воспринимаемой профессиональности, или замена блокнота на планшет без заметной смысловой подоплеки. Но даже такие "мелочи" способны изменить восприятие изображённого человека или сцены в целом.
В эксперименте с участием людей точность определения поддельных изображений составила лишь 61,67%. Более того, участники с трудом определяли, какие именно части изображения были изменены. Современные системы выявления дипфейков, обученные на более явных манипуляциях, также показали низкие результаты. Даже после дообучения на новом датасете эффективность оставалась недостаточной.
Для оценки смысловых сдвигов применялся анализ с помощью модели ShareGPT-4V. Изменения затрагивали такие аспекты, как эмоции, идентичность, динамизм сцены, намерения создателя и этические последствия. В некоторых случаях манипуляции оценивались как этически тревожные, особенно если они влияли на восприятие власти, уязвимости или профессионализма субъекта.
Таким образом, MultiFakeVerse демонстрирует, что угроза дипфейков эволюционирует от очевидных подделок к едва заметным, но мощным инструментам искажения действительности. Это вызывает необходимость пересмотра подходов к обнаружению и регулированию подобных технологий.
Современные инструменты разговорного ИИ, такие как ChatGPT и Google Gemini, используются для создания глубоких фейков, которые не изменяют лица, а вносят более тонкие правки — меняют жесты, реквизит и фон. Эти изменения нарушают восприятие контекста изображения, вводя в заблуждение не только людей, но и системы обнаружения фейков.
Если ранее глубокие фейки ассоциировались с явными подделками — политической пропагандой или несанкционированным ИИ-порно, — то новые методы манипуляции работают на более глубоком уровне: они изменяют эмоциональный контекст и смысл сцены, не затрагивая идентичность изображённого человека.
Австралийские исследователи из Monash University и Curtin University разработали новый масштабный датасет под названием MultiFakeVerse, включающий 845 826 изображений. Он создан с помощью vision-language моделей (VLM), таких как Gemini-2.0-Flash и ChatGPT-4o, и призван выявить, насколько опасны тонкие визуальные и концептуальные манипуляции.
Редакции касаются выражения лица, позы, одежды, объектов взаимодействия и фоновых элементов, изменяя восприятие эмоций, статуса, намерений и даже этических аспектов изображений. В некоторых случаях правки затрагивали до 80% изображения.
В ходе тестирования люди смогли правильно определить фейковые изображения лишь в 61.67% случаев, а точность локализации манипулируемых областей составила всего 24.96%. Даже современные системы обнаружения глубоких фейков, такие как CnnSpot, TruFor и SIDA, показали низкие результаты, особенно в режиме zero-shot (без дополнительного обучения).
После обучения на MultiFakeVerse точность моделей улучшилась, но результаты всё равно остались далеки от идеала. Например, SIDA-13B после адаптации достигла лишь 24.74% по метрике IoU, что указывает на слабую способность определять изменённые участки.
С помощью моделей анализа зрительного восприятия исследователи классифицировали манипуляции по их влиянию на восприятие. Изменения касались шести категорий: эмоции, идентичность, динамика власти, повествование, предполагаемое намерение и этические последствия. Некоторые правки были оценены как "убеждающие" или "обманчивые", а небольшая часть — как вызывающая серьёзные этические опасения.
Исследование показало, что новая форма фейков — "нарративные манипуляции" — представляет собой долгосрочную угрозу. В отличие от грубых подделок, эти изменения труднее обнаружить и легче внедряются в повседневное медиа-пространство. MultiFakeVerse демонстрирует, что даже незначительные визуальные изменения могут со временем подрывать доверие к визуальной информации, особенно если они массово и незаметно распространяются в сети.
Современные инструменты генерации изображений на базе языково-визуальных моделей (VLM), такие как ChatGPT и Gemini, позволяют создавать дипфейки, которые не изменяют лицо или личность человека, а модифицируют контекст — например, выражение лица, позу, взгляд, одежду, предметы вокруг человека или фон изображения. Эти "мелкие" правки могут радикально изменить смысл сцены, не вызывая подозрений у зрителя.
В отличие от традиционных дипфейков, которые подделывают личность, такие изменения часто остаются незамеченными как для человеческого глаза, так и для AI-детекторов. Это делает их особенно опасными: они не выглядят как очевидные фальшивки и, следовательно, могут более эффективно манипулировать восприятием.
Если грубые дипфейки можно сравнить с нападением, то незаметные изменения в визуальных данных действуют скорее как газлайтинг — они медленно и последовательно подрывают доверие к визуальной информации. Подобные методы манипуляции использовались еще в сталинскую эпоху, когда "неугодные" фигуры исчезали с фотографий, перезаписывая историю. Такие практики формируют культурные и визуальные шаблоны, которые затем закрепляются в обучающих датасетах компьютерного зрения, усиливая эффект.
Исследование с использованием нового датасета MultiFakeVerse показало, что как люди, так и современные модели распознавания дипфейков с трудом выявляют такие тонкие изменения. В эксперименте люди правильно определяли фальшивку лишь в 61,67% случаев и редко могли точно указать, какая часть изображения была изменена. Среднее значение перекрытия между предполагаемыми и реальными зонами манипуляции составило всего 24,96%.
Автоматические системы, обученные на традиционных дипфейках (вроде подмены лиц), также показали низкие результаты при работе с MultiFakeVerse, даже после дополнительного обучения. Например, модель SIDA-13B после тонкой настройки достигла лишь 39,40 по F1-метрике и 24,74 по IoU, что указывает на слабую способность локализовать изменения.
Многие правки в изображениях MultiFakeVerse были минимальны по площади, но кардинально меняли интерпретацию сцены. Так, удаление стетоскопа у врача или замена блокнота на планшет могли снизить уровень доверия к изображаемому человеку. Генерация заголовков и последующий анализ с помощью Long-CLIP показали, что даже небольшие изменения объектов рядом с человеком влекут за собой значительные сдвиги в восприятии содержания.
В отличие от громких и очевидных дипфейков, "тихие" визуальные манипуляции не только сложны для обнаружения, но и могут накапливаться со временем, медленно и незаметно искажая общественное восприятие реальности. Это делает их особенно опасными: они не вызывают скандалов, но подрывают доверие к визуальной информации на глубоком уровне.
Для создания датасета MultiFakeVerse исследователи использовали четыре набора реальных изображений: EMOTIC, PISC, PIPA и PIC 2.0. Из 86,952 оригинальных изображений было сгенерировано 758,041 манипулированных версии, в результате чего общий объём составил 845,826 изображений. Генерация производилась с помощью моделей Gemini-2.0-Flash и ChatGPT-4o, каждая из которых предлагала по шесть минимальных правок к каждому изображению. Эти правки были направлены на изменение восприятия главного персонажа изображения: например, делая его наивным, гордым, раскаивающимся или незаинтересованным.
Для точного применения изменений использовались референцирующие выражения — фразы, однозначно указывающие на объект редактирования. Затем для внесения визуальных изменений применялись модели GPT-Image-1, Gemini-2.0-Flash-Image-Generation и ICEdit. Лучшие результаты показала Gemini-2.0-Flash, создавая естественные правки без артефактов.
Качество изображений в MultiFakeVerse оценивалось по следующим метрикам:
Изменения классифицировались по трём уровням:
Примерно треть всех правок касалась только человека, около пятой части — сцены, и около шестой — объектов.
Для оценки семантических сдвигов создавались подписи к оригинальным и изменённым изображениям при помощи модели ShareGPT-4V, а затем их представления сравнивались с помощью Long-CLIP. Наибольшие изменения наблюдались в случаях, когда манипуляции затрагивали объекты, находящиеся рядом с человеком.
Gemini-2.0-Flash был использован для анализа влияния правок на восприятие по шести направлениям: эмоции, личность, власть, сюжет, намерение и этические риски. Часто встречались изменения, вызывающие ассоциации с "дружелюбным", "уязвимым" или "профессиональным". Большинство правок вызывали лёгкие этические опасения, но некоторые — умеренные или серьёзные.
Создание датасета потребовало значительных вычислительных ресурсов:
В пользовательском исследовании участвовали 18 человек, которым показывали 50 изображений (реальные и фейковые). Участники правильно определяли подделки с точностью 61.67%. При этом среднее значение пересечения предсказанных и реальных областей изменений составило всего 24.96%, что указывает на трудность визуального выявления правок.
Тестирование проводилось с использованием моделей CnnSpot, AntifakePrompt, TruFor и SIDA:
Модель SIDA-13B в zero-shot достигла:
После fine-tuning показатели улучшились до:
Тем не менее, даже после дообучения модели испытывали сложности в точной локализации изменений, что демонстрирует слабость текущих подходов к обнаружению таких тонких правок.
Разработка и анализ датасета MultiFakeVerse поднимают тревожные вопросы о будущем визуальной информации и способности как людей, так и алгоритмов различать правду и манипуляцию. Исследование демонстрирует, что даже минимальные изменения в изображениях — такие как удаление стетоскопа у врача или изменение фона — могут существенно повлиять на восприятие личности, эмоций, сценария и даже этического контекста сцены.
С текущим развитием генеративных моделей, таких как ChatGPT и Gemini, становится всё проще производить высококачественные, но труднообнаружимые подделки. Эти "мягкие" фальсификации отличаются от привычных "грубых" дипфейков: они не изменяют лицо или голос, а тонко трансформируют контекст, создавая новую — и зачастую вводящую в заблуждение — интерпретацию реальности.
Опасность заключается в кумулятивном эффекте таких изменений. Одно незначительное редактирование может показаться безвредным, но в совокупности они формируют искаженную картину мира, особенно если распространяются массово через социальные сети, новостные платформы или персональные фотопотоки. Это явление напоминает феномен "газлайтинга", где восприятие действительности подрывается незаметными, но постоянными искажениями.
Системы обнаружения дипфейков, разработанные для выявления более очевидных подделок (например, подмены лиц или грубого монтажа), оказались практически бессильны против контекстуальных и семантических манипуляций, представленных в MultiFakeVerse. Даже после дообучения на новом датасете такие системы, как CNNSpot и SIDA-13B, смогли лишь незначительно повысить точность обнаружения. Это говорит о фундаментальной нехватке архитектурных и методологических подходов к выявлению "мягких" фальсификаций.
Авторы исследования отмечают, что многие из представленных манипуляций могут быть оценены как этически допустимые или эстетически мотивированные. Однако даже минимальные сдвиги в восприятии — например, придание человеку черт наивности или вины — могут использоваться для манипуляции общественным мнением, дискредитации личностей или создания ложных нарративов.
Особенно тревожно то, что такие изменения могут быть внедрены без ведома изображённых людей, и последствия этого могут проявляться не сразу, а спустя длительное время, когда ложные образы укоренятся в общественном сознании.
Исследование подчеркивает необходимость разработки новых подходов к обнаружению фальсифицированного контента, способных распознавать не только пиксельные несоответствия, но и семантические сдвиги в изображениях. Такие системы должны учитывать контекст, эмоции, взаимодействия объектов и людей, а также возможную цель манипуляции.
Также важно повысить осведомлённость пользователей о существовании "мягких" дипфейков и внедрять инструменты верификации изображений на уровне платформ и устройств. Без этого общество может столкнуться с постепенной эрозией доверия к визуальной информации — основе современного цифрового взаимодействия.
Даже незначительные манипуляции в изображениях оказываются мощным инструментом искажения правды. Чем тоньше фейк — тем опаснее он для общества. MultiFakeVerse показывает, что нынешние подходы к обнаружению устарели и требуют пересмотра. Нам нужно не только развивать технологии защиты, но и повышать осознанность пользователей. Будущее визуального доверия зависит от того, насколько быстро мы сможем осознать и ответить на эту тихую, но нарастающую угрозу. Призыв к действиям: Учитесь критически оценивать визуальные материалы, следите за развитием инструментов выявления визуальных манипуляций, призывайте к этичному использованию ИИ и прозрачности на платформах социальных медиа.