Простая на первый взгляд карта черно-белого шума становится самым острым детектором ИИ, выявляя фундаментальные различия между восприятием мира людьми и машинами
Всем привет, сегодня я хотел бы поделиться с вами очень интересной вещью. Это обычная фотография, но она, как зеркало, проливает свет на те забытые пробелы между людьми и искусственным интеллектом.
Изображение выглядит не более чем нагромождением черно-белого шума, как заснеженный экран старого телевизора при отсутствии сигнала. Но когда вы просматриваете его на мобильном телефоне или уменьшаете страницу, происходит волшебное явление - в центре изображения появляется узор в форме сердца, который колышется из стороны в сторону при прокрутке страницы.

Я попытался заставить несколько лучших на сегодняшний день моделей искусственного интеллекта распознать это изображение: Gemini 2.5 Pro, GPT-5 Thinking, GPT-5 Pro, Beanbag, Qwen и Yuanbao. Результаты оказались неожиданными - все они потерпели неудачу. Даже после того, как Gemini 2.5 Pro дали целых семь минут на размышление, он в конце концов признал, что не может распознать это изображение.
И каждый, практически мгновенно, может запечатлеть бьющееся сердце.
Это заставило меня задуматься: почему такая простая задача является непосильным вызовом для ИИ? Какие технические принципы и когнитивные различия лежат в основе этого?
Зрение без времени: врожденное ограничение ИИ
В ходе более глубокого исследования я обнаружил ключевую концепцию: "Слепота времени".
Современные системы искусственного зрения, особенно мультимодальные макромодели, обрабатывают динамический контент совсем не так, как это делает человек. Вместо того чтобы смотреть видео, они разбивают его на дискретные статичные кадры для анализа.
Представьте себе следующее: вместо непрерывного видео ИИ видит одну-единственную фотографию. Он изучает каждую фотографию, обнаруживает, что все они зашумлены, и приходит к выводу, что это просто зашумленное видео.

И это бьющееся сердце, его послание существует точно только между кадрами, в потоке времени. В любой статичный момент сердце не существует, его не видно.
Результаты распознавания Gemini 2.5 Pro:

Результаты GPT-5-Thinking Identification:

Результаты распознавания GPT-5 Pro:

Результаты идентификации Gemini2.5-Pro:

Beanbag, Qwen, Yuanbao Результаты идентификации:

В мае 2023 года в работе под названием "Слепота времени: почему видеоязыковые модели не видят того, что видят люди?" была формализована эта теория.

Исследователи создали тестовый эталон под названием SpookyBench, содержащий 451 видеоролик, состоящий из шума, каждый из которых при самостоятельном просмотре имеет случайный шум, но при воспроизведении обнаруживает четкие формы, текст или узоры.

Результаты теста оказались шокирующими: человек распознал эти видео с точностью более 981 TP3T, в то время как большая модель ИИ имела точность 01 TP3T, все или ничего.

Независимо от размера архитектуры модели, объема обучающих данных, тонкости настройки или стратегии подсказки, ИИ никогда не отвечал правильно ни на одно из видео. Это уже не технический недостаток, а фундаментальное ограничение архитектуры ИИ.

Закон общей судьбы: основополагающий код человеческого зрения
За этим скрывается древний механизм зрительной системы человека - закон общей судьбы в гештальтпсихологии.
Проще говоря, наш мозг инстинктивно распознает объекты, движущиеся в одном направлении, как единое целое. Эта способность глубоко укоренилась в нашей эволюционной истории.
Десятки тысяч лет назад наши предки, сидя в траве, вдруг заметили, что часть травинок качается не так, как остальные, - они медленно двигались в одном направлении. Это открытие не требовало рационального осмысления, мозг сразу же бил тревогу: есть опасность!
Именно эта способность, заложенная эволюцией, позволяет нам видеть оленей в шумном видео и бьющиеся сердца в черно-белом горошек. Вместо статичных узоров мы видим само движение.

ИИ не имеет такого механизма. В его архитектуре сильна пространственная предвзятость, и он может распознавать только пространственные особенности и не способен обнаружить общую судьбу между точками пикселей во временном измерении. Он смотрит на каждый кадр и видит нагромождение зашумленных точек, но не может связать эти зашумленные точки во временном измерении и увидеть их общую траекторию.
Динамические иллюзии в статических картах: самообман зрительной системы
Что еще более интересно, так это то, что изображение сердца на самом деле статично, так почему же мы видим динамический эффект? Ответ удивителен: потому что мы сами двигаемся.
Исследования движений глаз, проведенные в 1950-х годах, показали, что человеческий глаз не полностью неподвижен при взгляде, а постоянно совершает крошечные непроизвольные движения. Именно эти крошечные движения обеспечивают наше восприятие неподвижных изображений.
Если изображение на сетчатке остается абсолютно неподвижным, то в течение 1-3 секунд эта область исчезает из поля зрения. Именно поэтому, когда мы долго смотрим на неподвижную точку, неизменные стимулы в периферийном поле зрения блекнут или даже исчезают - эффект угасания Тейшейры.
Без изменений нет информации. Мы живем в потоках, а ИИ - в кадрах.

От UX к исследованию искусственного интеллекта: диалог во времени и пространстве
Во время написания этого поста я вдруг вернулся в те времена, когда занимался UX-дизайном семь или восемь лет назад. Тогда мы изучали когнитивную психологию человека, отслеживали траектории движения глаз, внимание и память, чтобы сделать продукт более шелковым и конвертируемым.
Я никогда не думал, что изучение искусственного интеллекта спустя годы вернет нас на исходную позицию. Знания, которые использовались для изучения человеческого поведения в те времена, пронеслись сквозь время и пространство и сегодня излучают новый блеск.
ИИ и человек - как две параллельные линии, возвращающиеся в одно и то же место бесчисленными путями, но расходящиеся по своим маршрутам. Изучение ИИ - это, по сути, повторное знакомство человека с самим собой.
Человеческое зрение с точки зрения нейронауки: сложная симфония
Зрительная система человека гораздо сложнее, чем мы думаем. От сетчатки до коры головного мозга информация проходит через десятки этапов обработки, каждый из которых выполняет определенную функцию.
Первичная зрительная кора (V1) отвечает за распознавание краев и ориентацию, V2 обрабатывает более сложные формы, V4 специализируется на обработке цвета, а инферотемпоральная кора (IT) отвечает за распознавание объектов. Эта система не только обрабатывает пространственную информацию, но и интегрирует изменения во временном измерении, позволяя нам воспринимать движение и предсказывать траектории.
Еще более удивительно то, что зрительная система человека обладает способностью к предиктивному кодированию - она не только пассивно получает информацию, но и активно прогнозирует, что увидит в следующий момент, а затем сравнивает прогноз с реальным вводом и обрабатывает только разницу. Этот механизм значительно повышает эффективность визуальной обработки и позволяет нам "мозговым штурмом" составлять целостную картину из неполной информации.
Визуальные модели ИИ, хотя структурно и частично моделируют зрительный тракт человека, все же крайне слабо справляются с временной динамикой. Они обычно рассматривают видео как серию независимых кадров, которые затем интегрируются дополнительными временными модулями, а не смешивают пространственно-временную информацию, как это делает человек.
Зрительные иллюзии: окно в когнитивные различия между человеком и искусственным интеллектом
Скрытое сердце - лишь одна из многих визуальных иллюзий. Для нас зрительные иллюзии - это "ошибки" восприятия, но для ИИ они являются непреодолимым препятствием.
Например, популярное "видео с иллюзией меча" от Platform X: один кадр - это просто шум, но при воспроизведении он показывает четкий меч, который ИИ не может распознать, но человек видит с первого взгляда.
Есть еще классическая "картинка с уткой и кроликом": на статичном изображении вы можете увидеть либо утку, либо кролика, в зависимости от угла обзора. Люди могут свободно менять ракурсы, а ИИ может видеть либо утку, либо кролика, либо ни того, ни другого.

Причина, по которой эти иллюзорные изображения могут "обмануть" человека, заключается в том, что они используют свойства человеческой зрительной системы; а причина, по которой они не могут "обмануть" ИИ, заключается в том, что ИИ не обладает этими свойствами. В каком-то смысле это преимущество ИИ - его не смущает видимость, но при этом он теряет глубину понимания мира.
От восприятия к пониманию: когнитивный разрыв за пределами зрения
Более того, человеческое зрение не просто "видит", оно также тесно связано с нашими воспоминаниями, эмоциями и базой знаний. Когда мы видим сердце, оно вызывает не только узнавание формы, но и эмоциональные воспоминания, культурные ассоциации и личный опыт.
Мать, увидевшая качающееся сердце, может подумать об открытке, нарисованной ее ребенком; дизайнер, увидевший его, может подумать о том, как применить иллюзию в работе; ученый, увидевший его, может начать изучать оптику, лежащую в его основе.
ИИ может распознать форму сердца, но ему не хватает этой богатой эмоциональной связи и культурного контекста. Он "понимает" на уровне пикселей, а не на уровне смысла. Он знает, что такое форма, но не знает, что она значит для человека.
Переосмысление интеллекта: за гранью обработки данных
Эта разница заставляет нас задуматься: что же такое настоящий интеллект? Способность обрабатывать больше информации или способность понимать ее смысл? Способность безошибочно распознавать предметы или способность чувствовать эмоции и воспоминания, которые они вызывают?
Современный ИИ превзошел человека в обработке данных и распознавании образов, но все еще находится в зачаточном состоянии, когда речь заходит о том, как он понимает мир, справляется с неоднозначностью и воспринимает течение времени. Это не только технический, но и философский вопрос - каким существом мы хотим видеть ИИ?
Перспективы на будущее: мост или пропасть?
Благодаря глубокому пересечению нейронаук, когнитивных наук и исследований в области ИИ мы, возможно, сможем найти способы преодолеть этот разрыв. Некоторые исследователи начали изучать возможность интеграции механизмов временной обработки данных зрительной системы человека в архитектуру ИИ; другие пытаются имитировать модели движения глаз человека, чтобы заставить ИИ "видеть" мир так, чтобы он был ближе к человеку.
Но настоящий прорыв может произойти из-за более фундаментального вопроса: должны ли мы позволить ИИ видеть мир так же, как люди, или нам следует разработать совершенно новый способ его восприятия, с человеческой глубиной и уникальными преимуществами машин?
Ю Си: Заново открывая человечность в эпоху разгула технологий
В постоянно меняющемся мире технологий ИИ мы часто радуемся удвоению параметров моделей и повышению производительности, но редко задумываемся: действительно ли эти технологии делают нас лучшими людьми?
Эта скрытая любовь напоминает нам о том, что какими бы передовыми ни были технологии, они имеют свои границы; каким бы маленьким ни был человек, он уникален. Мы можем увидеть не только оленя в шуме, но и любовь в тишине, красоту в непостоянстве и само течение времени.
Это не провал ИИ, а напоминание о том, что, стремясь к технологическому прорыву, мы должны ценить и те черты, которые делают людей такими, какие они есть, - способность воспринимать потоки, глубину эмоций, широту понимания смысла.
Когда в следующий раз вы увидите такую, казалось бы, обычную картину, остановитесь и задумайтесь: вы видите не просто изображение, а время, движение и течение самой жизни. И это, пожалуй, самое фундаментальное различие между нами и машинами.
