Несмотря на стремительное развитие мультимодальных языковых моделей вроде GPT-4.1, экспериментальные данные показывают, что ИИ до сих пор с трудом определяет время по аналоговым часам — особенно если их внешний вид немного изменён. Эти ошибки могут указывать на фундаментальные проблемы в способности моделей к абстрактному мышлению, пространственному восприятию и генерализации, ставя под сомнение глубину «понимания» современных ИИ.
Источник новости: https://www.unite.ai/ais-struggle-to-read-analogue-clocks-may-have-deeper-significance/
Новое исследование, проведённое учёными из Китая и Испании, продемонстрировало, что даже передовые мультимодальные языковые модели, такие как GPT-4.1, испытывают значительные трудности при попытке определить время по изображениям аналоговых часов. Малейшие визуальные изменения, такие как деформация циферблата или изменение формы стрелок, приводят к резкому снижению точности распознавания времени.
Модель показала высокую ошибку средней абсолютной погрешности (MAE) — 232,48 секунды на стандартных часах, 1380,69 секунды при деформированном циферблате и 3726,93 секунды при изменённых стрелках. Это указывает на то, что модель не понимает концепцию времени, а лишь запоминает визуальные шаблоны.
Одна из причин низкой точности GPT-4.1 заключается в ограниченности обучающего датасета. Большинство доступных в интернете изображений часов отображают определённые, часто повторяющиеся моменты времени — например, 10:10, что популярно в рекламе часов. Это сужает диапазон распознаваемых моделью конфигураций и снижает способность к обобщению.
Чтобы устранить этот перекос, исследователи создали синтетический датасет, равномерно охватывающий все возможные положения стрелок. Однако и после дообучения на этом датасете модель показала улучшение лишь на тех изображениях, которые были близки к тем, что уже встречались в обучении.
Наибольшие ошибки возникали в случаях, когда модель путала назначение стрелок — например, принимала минутную стрелку за часовую. Это говорит о том, что GPT-4.1 использует визуальные признаки, такие как толщина стрелки или наличие наконечника, как сигналы для определения их функции. Изменение этих признаков нарушает интерпретацию и приводит к путанице.
Дополнительные эксперименты показали, что даже когда модель правильно определяла функцию стрелок, она продолжала ошибаться в направлении, указываемом стрелками. Это говорит о неполноценном восприятии пространственной ориентации.
Исследование поднимает более широкий вопрос о способности ИИ к абстрактному пониманию. В отличие от человека, который может обобщать и распознавать концепции даже в изменённой форме, модели, такие как GPT-4.1, склонны полагаться на запомненные визуальные паттерны. Это ставит под сомнение глубину их "понимания" и поднимает вопрос о том, способны ли они действительно осваивать концептуальные знания, или же их возможности ограничены сопоставлением шаблонов.
По мнению авторов, разгадка этих ограничений критически важна для развития мультимодальных систем, особенно если предположить, что текущие архитектуры неспособны к интеграции нескольких визуальных признаков в единое понимание.
Исследование, проведённое совместно учёными из Нанкинского университета аэронавтики и астронавтики и Мадридского политехнического университета, направлено на проверку способности мультимодальных языковых моделей (MLLM), таких как GPT-4.1, распознавать время по изображениям аналоговых часов. Авторы сосредоточились на анализе того, насколько хорошо модели справляются с этой задачей при различных визуальных модификациях циферблата и стрелок.
Для устранения возможных перекосов в обучающих данных, исследователи создали синтетический датасет, включающий изображения аналоговых часов, равномерно покрывающий все возможные временные значения. Этот датасет был использован как для первичного тестирования, так и для последующего дообучения модели GPT-4.1.
До дообучения GPT-4.1 демонстрировала значительные ошибки в интерпретации времени даже на стандартных изображениях часов. Модель часто давала неверные ответы, особенно при малейших визуальных отклонениях — таких как изменение формы корпуса часов, утончение стрелок или добавление наконечников в виде стрел.
Средняя абсолютная ошибка (MAE) составила:
Эти данные указывают на то, что модель скорее запоминает визуальные шаблоны, чем действительно понимает принцип измерения времени.
После дообучения на синтетическом датасете производительность GPT-4.1 значительно улучшилась на стандартных изображениях. Однако при изменении внешнего вида стрелок точность снова резко снижалась. Модель продолжала путать назначение стрелок (часовую с минутной и т.д.), особенно на изображениях с утончёнными или стилизованными элементами.
Были выявлены два типа ошибок:
Авторы дополнительно провели анализ предсказаний модели, разделив их на случаи с правильным и неправильным определением ролей стрелок. Наиболее значительные ошибки возникали при перепутывании функций стрелок, тогда как ошибки направления были менее критичными.
Также была проведена серия экспериментов с изображениями часов, имеющих только одну часовую стрелку. Результаты показали, что даже незначительное изменение визуального стиля стрелки снижает точность модели, несмотря на отсутствие других элементов, требующих интерпретации.
Обзор производительности модели до и после дообучения показал, что хотя GPT-4.1 улучшает точность на знакомых изображениях, её способность к обобщению остаётся слабой. Это ставит под сомнение, овладевает ли модель абстрактной концепцией времени или лишь совершенствует распознавание визуальных шаблонов.
Исследование показало, что даже передовые мультимодальные языковые модели, такие как GPT-4.1, испытывают трудности при определении времени по изображениям аналоговых часов. Несмотря на высокую точность при работе со стандартными изображениями, модель не способна интерпретировать менее привычные или искажённые визуальные формы часов. Это указывает на ограниченное понимание концепции времени и опору на узнавание визуальных шаблонов, а не на абстрактное мышление.
Одной из ключевых проблем является чрезмерная зависимость модели от визуальных характеристик, таких как толщина стрелок или наличие стрелок с наконечниками. Даже минимальные изменения в дизайне вызывают резкое снижение точности. Например, при изменении формы стрелок средняя абсолютная ошибка (Mean Absolute Error) увеличивалась с 232,48 секунд до 3726,93 секунд. Это демонстрирует неспособность модели обобщать знания вне рамок визуально знакомых шаблонов.
Большинство моделей обучаются на изображениях, собранных из интернета, где часто повторяются одни и те же временные значения (например, 10:10 — популярное время на рекламных изображениях часов). Это приводит к сужению диапазона обучающих примеров и ограничивает способность моделей распознавать разнообразные конфигурации аналоговых часов.
Отдельной проблемой стала путаница в распознавании функций стрелок. Модель часто ошибалась, принимая минутную стрелку за часовую и наоборот, особенно при наличии модификаций внешнего вида стрелок. Анализ показал, что такие ошибки в распознавании ролей стрелок приводят к более существенным отклонениям, чем ошибки в определении направления правильно распознанной стрелки.
Хотя дообучение на синтетическом наборе данных улучшило точность работы модели со стандартными изображениями, производительность при работе с искажёнными часами или модифицированными стрелками осталась низкой. Это говорит о том, что модель не усваивает абстрактную концепцию считывания времени, а лишь запоминает визуальные примеры, что ограничивает её применимость в условиях реального мира.
В случае искажённых изображений (например, «плавящиеся» часы в стиле Дали) модель демонстрировала ухудшение результатов, что указывает на потенциальные ограничения в пространственном восприятии. Даже в случаях, когда модель правильно распознавала каждую стрелку, точность оставалась ниже стандартной, что дополнительно подтверждает, что проблема кроется глубже, чем просто в ошибках идентификации.
Даже незначительное изменение одного визуального элемента, такого как форма стрелки, оказывало непропорционально большое влияние на общее понимание модели. В одном из экспериментов изменение формы часовой стрелки в задаче на определение её направления вызвало снижение точности, несмотря на то, что задача была упрощена до одного элемента. Это подчёркивает высокую чувствительность модели к незнакомым визуальным признакам.
Результаты исследования ставят под сомнение способность современных моделей к абстрагированию и генерализации знаний. Вместо формирования устойчивого понимания концепции времени, модели демонстрируют поведение, основанное на запоминании и сопоставлении шаблонов, что делает их уязвимыми к изменениям в визуальном представлении задачи.
Исследование, проведённое учёными из Китая и Испании, выявило, что даже продвинутые мультимодальные модели, такие как GPT-4.1, испытывают значительные трудности при интерпретации аналоговых часов. Несмотря на улучшение результатов после дообучения на синтетических данных, модель продолжала допускать ошибки при изменении формы стрелок или циферблата. Это свидетельствует о том, что способность ИИ к обобщению и абстрактному пониманию остаётся ограниченной и может базироваться преимущественно на распознавании визуальных шаблонов, а не на глубоком понимании концепции времени.
Авторы подчёркивают, что неудачи модели при работе с необычными изображениями часов могут быть связаны с архитектурными ограничениями самих систем. Например, спутанность в определении ролей стрелок (часовая, минутная, секундная) вызывала наибольшее количество ошибок, что указывает на слабость модели в интеграции нескольких визуальных признаков. Это поднимает вопрос о необходимости разработки новых архитектур, способных к более сложному восприятию пространственных отношений и абстрактных понятий.
Эксперимент показал, что даже при наличии большого количества данных (в данном случае — синтетических изображений часов), модель не смогла достичь устойчивого понимания, аналогичного человеческому. Это ставит под сомнение эффективность подхода, основанного на «заливке» модели большим числом примеров, и указывает на необходимость более качественного и контекстуально значимого обучения.
Результаты работы подтверждают ранее высказанную в других исследованиях гипотезу о том, что высокие показатели моделей на тестах могут быть результатом простого сопоставления шаблонов, а не истинного понимания. Это создаёт риск переоценки возможностей текущих ИИ-систем при их применении в задачах, требующих обобщения и адаптации к новым условиям.
Авторы подчёркивают важность дальнейших исследований в области мультимодальных моделей, особенно в аспектах, касающихся восприятия пространственной информации и символических представлений. Улучшение архитектур, обучение на более сбалансированных и разнообразных наборах данных, а также разработка новых метрик оценки понимания, а не только точности, могут стать ключевыми направлениями в развитии ИИ.
Исследование, посвящённое способности моделей ИИ, таких как GPT-4.1, определять время по изображениям аналоговых часов, выявляет фундаментальные ограничения современной мульти-модальной архитектуры. Несмотря на высокий уровень точности в стандартных задачах, модели демонстрируют серьёзные ошибки при столкновении с незначительно изменёнными или незнакомыми визуальными представлениями часов. Это указывает на зависимость от распознавания шаблонов, а не на наличие глубинного понимания концепции времени.
В отличие от людей, которые усваивают абстрактные принципы и применяют их в новых контекстах, ИИ-модели, судя по результатам, не способны к подобной генерализации. Люди могут различать аналоговые часы даже при их искажённой форме или необычном дизайне благодаря прочному когнитивному фундаменту, заложенному в раннем детстве. Модели же теряются при малейших отклонениях от паттернов, представленных в обучающих выборках.
Результаты экспериментов показывают, что даже после дообучения на синтетических, сбалансированных по времени изображениях аналоговых часов, GPT-4.1 улучшает точность только на тех примерах, которые по стилю и структуре близки к обучающим. При изменении формы стрелок, их толщины или добавлении стрелочных наконечников, производительность резко падает. Это демонстрирует, что модель не приобрела абстрактного знания о механизме работы часов, а лишь «запомнила» визуальные шаблоны.
Авторы отмечают, что такие провалы могут быть связаны как с проблемами восприятия пространственного направления, так и с неспособностью интегрировать несколько визуальных признаков — например, одновременное определение положения часовой, минутной и секундной стрелок. Особенно ярко это проявляется в ошибках, связанных с путаницей ролей стрелок — модель часто принимает часовую за минутную и наоборот.
Исследование затрагивает более широкую проблему: могут ли современные ИИ-системы выйти за пределы шаблонного распознавания и приблизиться к человеческому уровню абстракции и обобщения. Несмотря на кажущиеся успехи в тестах и бенчмарках, такие провалы в, казалось бы, простых задачах, как определение времени по часам, подрывают доверие к их способности решать более сложные задачи в реальных условиях.
Это ставит под сомнение текущий подход к обучению ИИ, основанный на масштабировании объёма данных. Достаточно ли просто «заливать» модели большим количеством разнообразных примеров? Или же необходимо переосмысление архитектур, способных к настоящему пониманию, а не к запоминанию?
Хотя задача распознавания времени по аналоговым часам может показаться незначительной, она служит индикатором глубинных ограничений в построении универсального ИИ. Если модели неспособны абстрагировать столь базовую концепцию, как отображение времени, возникает вопрос: смогут ли они адекватно справляться с более сложными когнитивными задачами, требующими синтеза, логики и интуитивного понимания?
Авторы подчёркивают, что выявление причин подобных неудач — ключ к созданию действительно понимающих систем. Это требует не только улучшения датасетов, но и разработки архитектур, способных интегрировать информацию на уровне, приближенном к человеческому.
Неспособность ИИ распознать время на аналоговых часах — это не просто технический сбой, а симптом глубинных когнитивных ограничений современных моделей. Чтобы приблизиться к уровню человеческого понимания, ИИ нуждается не только в большем количестве данных, но и в архитектурах, способных к восприятию абстрактных понятий и пространственных отношений. Эта задача — критически важный вызов на пути к созданию по-настоящему универсального искусственного интеллекта.