Почему искусственный интеллект не справляется с аналоговыми часами — глубинные причины и последствия

Михаил Альмаров
Icon
8
Icon
Новости
Icon
31/5/2025 15:25
News Main Image

Несмотря на стремительное развитие мультимодальных языковых моделей вроде GPT-4.1, экспериментальные данные показывают, что ИИ до сих пор с трудом определяет время по аналоговым часам — особенно если их внешний вид немного изменён. Эти ошибки могут указывать на фундаментальные проблемы в способности моделей к абстрактному мышлению, пространственному восприятию и генерализации, ставя под сомнение глубину «понимания» современных ИИ.
Источник новости: https://www.unite.ai/ais-struggle-to-read-analogue-clocks-may-have-deeper-significance/



Проблема определения времени для ИИ

Ограничения современных моделей

Новое исследование, проведённое учёными из Китая и Испании, продемонстрировало, что даже передовые мультимодальные языковые модели, такие как GPT-4.1, испытывают значительные трудности при попытке определить время по изображениям аналоговых часов. Малейшие визуальные изменения, такие как деформация циферблата или изменение формы стрелок, приводят к резкому снижению точности распознавания времени.

Модель показала высокую ошибку средней абсолютной погрешности (MAE) — 232,48 секунды на стандартных часах, 1380,69 секунды при деформированном циферблате и 3726,93 секунды при изменённых стрелках. Это указывает на то, что модель не понимает концепцию времени, а лишь запоминает визуальные шаблоны.

Влияние ограниченного датасета

Одна из причин низкой точности GPT-4.1 заключается в ограниченности обучающего датасета. Большинство доступных в интернете изображений часов отображают определённые, часто повторяющиеся моменты времени — например, 10:10, что популярно в рекламе часов. Это сужает диапазон распознаваемых моделью конфигураций и снижает способность к обобщению.

Чтобы устранить этот перекос, исследователи создали синтетический датасет, равномерно охватывающий все возможные положения стрелок. Однако и после дообучения на этом датасете модель показала улучшение лишь на тех изображениях, которые были близки к тем, что уже встречались в обучении.

Ошибки интерпретации и пространственное восприятие

Наибольшие ошибки возникали в случаях, когда модель путала назначение стрелок — например, принимала минутную стрелку за часовую. Это говорит о том, что GPT-4.1 использует визуальные признаки, такие как толщина стрелки или наличие наконечника, как сигналы для определения их функции. Изменение этих признаков нарушает интерпретацию и приводит к путанице.

Дополнительные эксперименты показали, что даже когда модель правильно определяла функцию стрелок, она продолжала ошибаться в направлении, указываемом стрелками. Это говорит о неполноценном восприятии пространственной ориентации.

Глубинная проблема понимания

Исследование поднимает более широкий вопрос о способности ИИ к абстрактному пониманию. В отличие от человека, который может обобщать и распознавать концепции даже в изменённой форме, модели, такие как GPT-4.1, склонны полагаться на запомненные визуальные паттерны. Это ставит под сомнение глубину их "понимания" и поднимает вопрос о том, способны ли они действительно осваивать концептуальные знания, или же их возможности ограничены сопоставлением шаблонов.

По мнению авторов, разгадка этих ограничений критически важна для развития мультимодальных систем, особенно если предположить, что текущие архитектуры неспособны к интеграции нескольких визуальных признаков в единое понимание.

Методология исследования

Исследование, проведённое совместно учёными из Нанкинского университета аэронавтики и астронавтики и Мадридского политехнического университета, направлено на проверку способности мультимодальных языковых моделей (MLLM), таких как GPT-4.1, распознавать время по изображениям аналоговых часов. Авторы сосредоточились на анализе того, насколько хорошо модели справляются с этой задачей при различных визуальных модификациях циферблата и стрелок.

Для устранения возможных перекосов в обучающих данных, исследователи создали синтетический датасет, включающий изображения аналоговых часов, равномерно покрывающий все возможные временные значения. Этот датасет был использован как для первичного тестирования, так и для последующего дообучения модели GPT-4.1.

Основные результаты

Первичное тестирование

До дообучения GPT-4.1 демонстрировала значительные ошибки в интерпретации времени даже на стандартных изображениях часов. Модель часто давала неверные ответы, особенно при малейших визуальных отклонениях — таких как изменение формы корпуса часов, утончение стрелок или добавление наконечников в виде стрел.

Средняя абсолютная ошибка (MAE) составила:

  • 232,48 секунды на стандартных часах,
  • 1380,69 секунды при искажённой форме циферблата,
  • 3726,93 секунды при изменении формы стрелок.

Эти данные указывают на то, что модель скорее запоминает визуальные шаблоны, чем действительно понимает принцип измерения времени.

Дообучение и повторное тестирование

После дообучения на синтетическом датасете производительность GPT-4.1 значительно улучшилась на стандартных изображениях. Однако при изменении внешнего вида стрелок точность снова резко снижалась. Модель продолжала путать назначение стрелок (часовую с минутной и т.д.), особенно на изображениях с утончёнными или стилизованными элементами.

Были выявлены два типа ошибок:

  • ошибки направления — когда модель неправильно определяла угол наклона стрелки,
  • ошибки распознавания роли стрелки — когда модель путала, какая стрелка обозначает часы, минуты или секунды.

Анализ ошибок

Авторы дополнительно провели анализ предсказаний модели, разделив их на случаи с правильным и неправильным определением ролей стрелок. Наиболее значительные ошибки возникали при перепутывании функций стрелок, тогда как ошибки направления были менее критичными.

Также была проведена серия экспериментов с изображениями часов, имеющих только одну часовую стрелку. Результаты показали, что даже незначительное изменение визуального стиля стрелки снижает точность модели, несмотря на отсутствие других элементов, требующих интерпретации.

Общая оценка

Обзор производительности модели до и после дообучения показал, что хотя GPT-4.1 улучшает точность на знакомых изображениях, её способность к обобщению остаётся слабой. Это ставит под сомнение, овладевает ли модель абстрактной концепцией времени или лишь совершенствует распознавание визуальных шаблонов.

Ссылки на источники данных и публикаций

Недостаточное понимание концепции времени

Исследование показало, что даже передовые мультимодальные языковые модели, такие как GPT-4.1, испытывают трудности при определении времени по изображениям аналоговых часов. Несмотря на высокую точность при работе со стандартными изображениями, модель не способна интерпретировать менее привычные или искажённые визуальные формы часов. Это указывает на ограниченное понимание концепции времени и опору на узнавание визуальных шаблонов, а не на абстрактное мышление.

Зависимость от визуальных паттернов

Одной из ключевых проблем является чрезмерная зависимость модели от визуальных характеристик, таких как толщина стрелок или наличие стрелок с наконечниками. Даже минимальные изменения в дизайне вызывают резкое снижение точности. Например, при изменении формы стрелок средняя абсолютная ошибка (Mean Absolute Error) увеличивалась с 232,48 секунд до 3726,93 секунд. Это демонстрирует неспособность модели обобщать знания вне рамок визуально знакомых шаблонов.

Ограниченность тренировочных данных

Большинство моделей обучаются на изображениях, собранных из интернета, где часто повторяются одни и те же временные значения (например, 10:10 — популярное время на рекламных изображениях часов). Это приводит к сужению диапазона обучающих примеров и ограничивает способность моделей распознавать разнообразные конфигурации аналоговых часов.

Ошибки в идентификации стрелок

Отдельной проблемой стала путаница в распознавании функций стрелок. Модель часто ошибалась, принимая минутную стрелку за часовую и наоборот, особенно при наличии модификаций внешнего вида стрелок. Анализ показал, что такие ошибки в распознавании ролей стрелок приводят к более существенным отклонениям, чем ошибки в определении направления правильно распознанной стрелки.

Неспособность к обобщению после дообучения

Хотя дообучение на синтетическом наборе данных улучшило точность работы модели со стандартными изображениями, производительность при работе с искажёнными часами или модифицированными стрелками осталась низкой. Это говорит о том, что модель не усваивает абстрактную концепцию считывания времени, а лишь запоминает визуальные примеры, что ограничивает её применимость в условиях реального мира.

Нарушения в ориентации и пространственном восприятии

В случае искажённых изображений (например, «плавящиеся» часы в стиле Дали) модель демонстрировала ухудшение результатов, что указывает на потенциальные ограничения в пространственном восприятии. Даже в случаях, когда модель правильно распознавала каждую стрелку, точность оставалась ниже стандартной, что дополнительно подтверждает, что проблема кроется глубже, чем просто в ошибках идентификации.

Уязвимость к единичным визуальным изменениям

Даже незначительное изменение одного визуального элемента, такого как форма стрелки, оказывало непропорционально большое влияние на общее понимание модели. В одном из экспериментов изменение формы часовой стрелки в задаче на определение её направления вызвало снижение точности, несмотря на то, что задача была упрощена до одного элемента. Это подчёркивает высокую чувствительность модели к незнакомым визуальным признакам.

Отсутствие абстракции и генерализации

Результаты исследования ставят под сомнение способность современных моделей к абстрагированию и генерализации знаний. Вместо формирования устойчивого понимания концепции времени, модели демонстрируют поведение, основанное на запоминании и сопоставлении шаблонов, что делает их уязвимыми к изменениям в визуальном представлении задачи.

Последствия для развития ИИ

Ограниченность обобщения и понимания

Исследование, проведённое учёными из Китая и Испании, выявило, что даже продвинутые мультимодальные модели, такие как GPT-4.1, испытывают значительные трудности при интерпретации аналоговых часов. Несмотря на улучшение результатов после дообучения на синтетических данных, модель продолжала допускать ошибки при изменении формы стрелок или циферблата. Это свидетельствует о том, что способность ИИ к обобщению и абстрактному пониманию остаётся ограниченной и может базироваться преимущественно на распознавании визуальных шаблонов, а не на глубоком понимании концепции времени.

Архитектурные ограничения и необходимость новых подходов

Авторы подчёркивают, что неудачи модели при работе с необычными изображениями часов могут быть связаны с архитектурными ограничениями самих систем. Например, спутанность в определении ролей стрелок (часовая, минутная, секундная) вызывала наибольшее количество ошибок, что указывает на слабость модели в интеграции нескольких визуальных признаков. Это поднимает вопрос о необходимости разработки новых архитектур, способных к более сложному восприятию пространственных отношений и абстрактных понятий.

Проблема зависимости от объёма данных

Эксперимент показал, что даже при наличии большого количества данных (в данном случае — синтетических изображений часов), модель не смогла достичь устойчивого понимания, аналогичного человеческому. Это ставит под сомнение эффективность подхода, основанного на «заливке» модели большим числом примеров, и указывает на необходимость более качественного и контекстуально значимого обучения.

Разрыв между видимостью и пониманием

Результаты работы подтверждают ранее высказанную в других исследованиях гипотезу о том, что высокие показатели моделей на тестах могут быть результатом простого сопоставления шаблонов, а не истинного понимания. Это создаёт риск переоценки возможностей текущих ИИ-систем при их применении в задачах, требующих обобщения и адаптации к новым условиям.

Направления будущих исследований

Авторы подчёркивают важность дальнейших исследований в области мультимодальных моделей, особенно в аспектах, касающихся восприятия пространственной информации и символических представлений. Улучшение архитектур, обучение на более сбалансированных и разнообразных наборах данных, а также разработка новых метрик оценки понимания, а не только точности, могут стать ключевыми направлениями в развитии ИИ.

Более широкое значение для понимания ИИ

Поверхностное распознавание против абстрактного понимания

Исследование, посвящённое способности моделей ИИ, таких как GPT-4.1, определять время по изображениям аналоговых часов, выявляет фундаментальные ограничения современной мульти-модальной архитектуры. Несмотря на высокий уровень точности в стандартных задачах, модели демонстрируют серьёзные ошибки при столкновении с незначительно изменёнными или незнакомыми визуальными представлениями часов. Это указывает на зависимость от распознавания шаблонов, а не на наличие глубинного понимания концепции времени.

В отличие от людей, которые усваивают абстрактные принципы и применяют их в новых контекстах, ИИ-модели, судя по результатам, не способны к подобной генерализации. Люди могут различать аналоговые часы даже при их искажённой форме или необычном дизайне благодаря прочному когнитивному фундаменту, заложенному в раннем детстве. Модели же теряются при малейших отклонениях от паттернов, представленных в обучающих выборках.

Ограничения архитектуры и данных

Результаты экспериментов показывают, что даже после дообучения на синтетических, сбалансированных по времени изображениях аналоговых часов, GPT-4.1 улучшает точность только на тех примерах, которые по стилю и структуре близки к обучающим. При изменении формы стрелок, их толщины или добавлении стрелочных наконечников, производительность резко падает. Это демонстрирует, что модель не приобрела абстрактного знания о механизме работы часов, а лишь «запомнила» визуальные шаблоны.

Авторы отмечают, что такие провалы могут быть связаны как с проблемами восприятия пространственного направления, так и с неспособностью интегрировать несколько визуальных признаков — например, одновременное определение положения часовой, минутной и секундной стрелок. Особенно ярко это проявляется в ошибках, связанных с путаницей ролей стрелок — модель часто принимает часовую за минутную и наоборот.

Проблема генерализации и доверия к ИИ

Исследование затрагивает более широкую проблему: могут ли современные ИИ-системы выйти за пределы шаблонного распознавания и приблизиться к человеческому уровню абстракции и обобщения. Несмотря на кажущиеся успехи в тестах и бенчмарках, такие провалы в, казалось бы, простых задачах, как определение времени по часам, подрывают доверие к их способности решать более сложные задачи в реальных условиях.

Это ставит под сомнение текущий подход к обучению ИИ, основанный на масштабировании объёма данных. Достаточно ли просто «заливать» модели большим количеством разнообразных примеров? Или же необходимо переосмысление архитектур, способных к настоящему пониманию, а не к запоминанию?

Значение для будущего ИИ

Хотя задача распознавания времени по аналоговым часам может показаться незначительной, она служит индикатором глубинных ограничений в построении универсального ИИ. Если модели неспособны абстрагировать столь базовую концепцию, как отображение времени, возникает вопрос: смогут ли они адекватно справляться с более сложными когнитивными задачами, требующими синтеза, логики и интуитивного понимания?

Авторы подчёркивают, что выявление причин подобных неудач — ключ к созданию действительно понимающих систем. Это требует не только улучшения датасетов, но и разработки архитектур, способных интегрировать информацию на уровне, приближенном к человеческому.

Неспособность ИИ распознать время на аналоговых часах — это не просто технический сбой, а симптом глубинных когнитивных ограничений современных моделей. Чтобы приблизиться к уровню человеческого понимания, ИИ нуждается не только в большем количестве данных, но и в архитектурах, способных к восприятию абстрактных понятий и пространственных отношений. Эта задача — критически важный вызов на пути к созданию по-настоящему универсального искусственного интеллекта.