Os humanos podem ver, a IA não: a diferença essencial que o coração oculto revela

Um mapa de ruído a preto e branco aparentemente simples torna-se o detetor de IA mais nítido, revelando as diferenças fundamentais entre a forma como os humanos e as máquinas percepcionam o mundo

Olá a todos, hoje gostaria de partilhar convosco uma coisa muito interessante. Tem origem numa fotografia vulgar, mas é como um espelho que ilumina as lacunas negligenciadas entre os humanos e a IA.

A imagem parece nada mais do que uma confusão de ruído a preto e branco, como o ecrã de neve de um velho televisor quando não há sinal. Mas quando a vemos no telemóvel, ou quando encolhemos a página, ocorre um fenómeno mágico - um padrão em forma de coração aparece no centro da imagem, balançando de um lado para o outro à medida que a página se desloca.

Tentei que vários dos principais modelos de IA actuais reconhecessem esta imagem: Gemini 2.5 Pro, GPT-5 Thinking, GPT-5 Pro, Beanbag, Qwen e Yuanbao. Os resultados foram surpreendentes - todos falharam. Mesmo depois de dar ao Gemini 2.5 Pro sete minutos completos para pensar, teve finalmente de admitir que não a conseguia reconhecer.

E qualquer pessoa, quase instantaneamente, pode captar o coração a bater.

Isto fez-me refletir: porque é que uma tarefa tão simples é um desafio impossível para a IA? Quais são os princípios técnicos e as diferenças cognitivas por detrás deste facto?

Visão cega no tempo: uma limitação inata da IA

Através de uma pesquisa mais profunda, descobri um conceito-chave: cegueira temporal.

Os actuais sistemas de visão de IA, especialmente os macromodelos multimodais, processam o conteúdo dinâmico de uma forma completamente diferente da dos humanos. Em vez de verem efetivamente o vídeo, dividem-no em quadros estáticos discretos para análise.

Imagine o seguinte: em vez de um vídeo contínuo, a IA vê uma única fotografia. Examina cada fotografia e verifica que todas são ruidosas, concluindo que se trata apenas de um vídeo ruidoso.

E este coração que bate, a sua mensagem só existe precisamente entre fotogramas, no fluxo do tempo. Em qualquer momento estático, o coração não existe, não é visível.

Resultados do reconhecimento do Gemini 2.5 Pro:

Resultados do GPT-5-Identificação do pensamento:

Resultados do Reconhecimento GPT-5 Pro:

Resultados da identificação do Gemini2.5-Pro:

Beanbag, Qwen, Yuanbao Resultados da identificação:

Em maio de 2023, um artigo intitulado "Time Blindness: Why Video-Language Models Can't See What Humans Can?" formalizou a teoria.

Os investigadores criaram um teste de referência chamado SpookyBench com 451 vídeos compostos por ruído, cada um dos quais é aleatoriamente ruidoso quando visto isoladamente, mas revela formas, texto ou padrões claros quando reproduzido.

Os resultados do teste foram chocantes: os humanos reconheceram estes vídeos com uma precisão de mais de 981 TP3T, enquanto o grande modelo de IA teve uma precisão de 01 TP3T, tudo ou nada.

Independentemente da dimensão da arquitetura do modelo, da dimensão dos dados de treino, do facto de ter sido afinada ou da estratégia de sugestão utilizada, a IA nunca respondeu corretamente a nenhum dos vídeos. Isto já não é uma falha técnica, mas sim uma limitação fundamental da arquitetura da IA.

A Lei do Destino Comum: O Código Subjacente da Visão Humana

Por detrás disto está, de facto, um mecanismo antigo do sistema visual humano - a Lei do Destino Comum na psicologia da Gestalt.

Simplificando, os nossos cérebros reconhecem instintivamente os objectos que se movem na mesma direção como um todo. Esta capacidade está profundamente enraizada na nossa história evolutiva.

Há dezenas de milhares de anos, quando os nossos antepassados estavam agachados na relva, repararam subitamente que uma parte das folhas de relva balançava de forma diferente das restantes - moviam-se lentamente na mesma direção. Esta descoberta não exigia um pensamento racional; o cérebro dava imediatamente o alarme: havia perigo!

É esta capacidade, dada pela evolução, que nos permite ver veados em vídeos ruidosos e corações a bater em bolinhas pretas e brancas. Em vez de padrões estáticos, vemos o próprio movimento.

A IA não dispõe deste mecanismo. Tem uma forte tendência espacial na sua arquitetura, que só consegue reconhecer primeiro as caraterísticas espaciais e é incapaz de descobrir um destino comum entre os pontos de pixel na dimensão temporal. Olha para cada fotograma e vê um amontoado de pontos ruidosos, mas não consegue ligar estes pontos ruidosos na dimensão temporal e ver a sua trajetória comum.

Ilusões dinâmicas em mapas estáticos: auto-engano do sistema visual

O que é ainda mais interessante é que a imagem do coração é, na verdade, uma imagem estática, por isso, porque é que vemos o efeito dinâmico? A resposta é surpreendente: porque nos estamos a mover.

Os estudos sobre os movimentos oculares efectuados na década de 1950 demonstraram que o olho humano não está completamente imóvel quando olha, mas está constantemente envolvido em pequenos movimentos involuntários. São estes pequenos movimentos que asseguram a nossa perceção contínua de imagens fixas.

Se a imagem na retina permanecer absolutamente imóvel, no espaço de 1 a 3 segundos a área desvanece-se e desaparece do campo visual. É por isso que, quando olhamos fixamente para um ponto fixo durante um longo período de tempo, os estímulos imutáveis no campo de visão periférico desvanecem-se ou até desaparecem - o efeito de desvanecimento de Teixeira.

Sem mudança, não há informação. Nós vivemos em fluxos e a IA vive em quadros.

Da investigação em UX à investigação em IA: um diálogo no tempo e no espaço

Enquanto estava a escrever este artigo, lembrei-me subitamente dos dias em que estava a fazer UX design, há sete ou oito anos. Nessa altura, estudávamos a psicologia cognitiva humana, as rotas de rastreio ocular, a atenção e a memória só para tornar a experiência do produto mais sedosa e converter mais.

Nunca pensei que estudar a IA anos mais tarde nos trouxesse de volta à estaca zero. O conhecimento que foi utilizado para estudar o comportamento humano nessa altura viajou através do tempo e do espaço e hoje exala um novo brilho.

A IA e o ser humano são como duas linhas paralelas, que regressam ao mesmo sítio por inúmeros caminhos, mas que divergem nas suas próprias rotas. Estudar a IA é essencialmente reaproximar o ser humano de si próprio.

A visão humana a partir da neurociência: uma sinfonia complexa

O sistema visual humano é muito mais complexo do que pensamos. Desde a retina até ao córtex cerebral, a informação é transmitida através de dezenas de fases de processamento, cada uma com uma função específica.

O córtex visual primário (V1) é responsável pelo reconhecimento de arestas e orientação; o V2 processa formas mais complexas; o V4 é especializado no processamento de cores; e o córtex inferotemporal (IT) é responsável pelo reconhecimento de objectos. Este sistema não só processa a informação espacial, como também integra alterações na dimensão temporal, permitindo-nos percecionar o movimento e prever trajectórias.

O que é ainda mais espantoso é que o sistema visual humano tem a capacidade de Codificação Preditiva - não só recebe informação passivamente, como também prevê ativamente o que vai ver no momento seguinte, comparando depois a previsão com a entrada real e processando apenas a diferença. Este mecanismo melhora drasticamente a eficiência do processamento visual e permite-nos "pensar" numa imagem completa a partir de informações incompletas.

Os modelos visuais da IA, embora modelem parcialmente, em termos estruturais, a via visual humana, são ainda extremamente fracos no que respeita à dinâmica temporal. Normalmente, tratam o vídeo como uma série de fotogramas independentes que são depois integrados por módulos temporais adicionais, em vez de misturarem a informação espácio-temporal como fazem os humanos.

Ilusões visuais: uma janela para as diferenças cognitivas entre humanos e informáticos

O coração escondido é apenas uma das muitas ilusões visuais. As ilusões visuais são "erros" de perceção para nós, mas para a IA são uma lacuna intransponível.

Por exemplo, o popular "vídeo da ilusão da espada" da Plataforma X: um único fotograma é apenas ruído, mas quando é reproduzido mostra uma espada clara, que a IA não consegue reconhecer, mas que os humanos conseguem ver de relance.

Depois, há a clássica "imagem do pato e do coelho": numa imagem estática, pode ver-se um pato ou um coelho, dependendo do ângulo de visão. Os humanos são livres de mudar de perspetiva, enquanto a IA pode ver o pato, o coelho ou nenhum dos dois.

A razão pela qual estas imagens ilusórias podem "enganar" os humanos é que tiram partido das propriedades do sistema visual humano; e a razão pela qual não podem "enganar" a IA é que a IA não tem essas propriedades. De certa forma, esta é a vantagem da IA - não se deixa confundir pelas aparências, mas também perde a profundidade da compreensão do mundo.

Da perceção à compreensão: a divisão cognitiva para além da visão

Mais importante ainda, a visão humana não se limita a "ver", está também intimamente ligada às nossas memórias, emoções e base de conhecimentos. Quando vemos um coração, este evoca não só o reconhecimento da forma, mas também memórias emocionais, associações culturais e experiências pessoais.

Uma mãe que vê um coração a balançar pode pensar num cartão que o seu filho lhe desenhou; um designer que o vê pode pensar em como aplicar a ilusão a um trabalho; um cientista que o vê pode começar a explorar a ótica por detrás dele.

A IA pode reconhecer a forma de um coração, mas falta-lhe esta ligação emocional rica e o contexto cultural. "Compreende" ao nível do pixel, não ao nível do significado. Sabe o que é a forma, mas não o que significa para os humanos.

Redefinir a inteligência: para além das dimensões do processamento de dados

Esta diferença faz-nos repensar: o que é a verdadeira inteligência? Será a capacidade de processar mais informação ou a capacidade de compreender o significado que lhe está subjacente? É a capacidade de reconhecer objectos com precisão, ou é a capacidade de sentir as emoções e as memórias que eles trazem?

A IA moderna ultrapassou os humanos no processamento de dados e no reconhecimento de padrões, mas ainda está a dar os primeiros passos no que diz respeito à forma como compreende o mundo, lida com a ambiguidade e percebe o fluxo do tempo. Não se trata apenas de uma questão técnica, mas de uma questão filosófica - que tipo de ser queremos que a IA seja?

Perspectivas futuras: ponte ou abismo?

Com a profunda intersecção entre a neurociência, a ciência cognitiva e a investigação em IA, é possível que consigamos encontrar formas de colmatar esta lacuna. Alguns investigadores começaram a explorar a integração dos mecanismos de processamento temporal do sistema visual humano nas arquitecturas de IA; outros estão a tentar imitar os padrões de movimento dos olhos humanos para que a IA "veja" o mundo de uma forma mais próxima dos humanos.

Mas o verdadeiro avanço pode vir de uma questão mais fundamental: devemos permitir que a IA veja o mundo como os humanos, ou devemos desenvolver uma forma inteiramente nova de o percecionar, com a profundidade humana e as vantagens únicas das máquinas?

Yu Si: Redescobrir a humanidade numa era de loucura tecnológica

No mundo em constante mudança da tecnologia de IA, aplaudimos frequentemente a duplicação dos parâmetros dos modelos e a melhoria do desempenho, mas raramente paramos para pensar: estarão estas tecnologias a tornar-nos realmente melhores humanos?

Esse amor escondido lembra-nos que, por mais avançada que seja a tecnologia, ela tem os seus limites; por mais pequeno que seja o ser humano, ele é único. Podemos ver não só o veado no barulho, mas também o amor no silêncio, a beleza na impermanência e a própria passagem do tempo.

Não se trata de um fracasso da IA, mas de uma chamada de atenção para o facto de que, ao mesmo tempo que procuramos avanços tecnológicos, devemos também valorizar as caraterísticas que fazem do ser humano aquilo que ele é - a capacidade de perceber o fluxo, a profundidade das emoções, a amplitude da compreensão do significado.

Da próxima vez que vir uma imagem aparentemente vulgar como esta, pare e pense: não está a ver apenas uma imagem, está a ver tempo, movimento e o fluxo da própria vida. E essa é, talvez, a diferença mais fundamental entre nós e as máquinas.