IA

Por que a IA do Google erra ao soletrar a palavra Google

Descubra as razões técnicas que impedem o AI Overviews do Google e outros grandes modelos de linguagem de realizarem tarefas simples de ortografia.

Compartilhar
Tela de computador exibindo a palavra Google escrita incorretamente com luzes de erro de sistema
Tela de computador exibindo a palavra Google escrita incorretamente com luzes de erro de sistema

No dia 27 de maio de 2026, a jornalista Amanda Silberling publicou uma reportagem no portal TechCrunch que expõe uma falha embaraçosa no sistema AI Overview do Google: a inteligência artificial da empresa falhou gravemente ao soletrar termos básicos, incluindo o próprio nome da gigante das buscas. A análise detalhada das interações com a ferramenta revelou que, para o mecanismo do Google, a palavra "Google" conteria duas letras "p", uma falha que joga luz sobre as limitações inerentes de grandes modelos de linguagem (LLMs) em entender a estrutura elementar das palavras.

Tela de computador exibindo a palavra Google escrita incorretamente com luzes de erro de sistema
Foto: TechCrunch AI

Os exemplos de erros ortográficos bizarros coletados pela reportagem do TechCrunch não param por aí. O assistente de inteligência artificial do Google afirmou de forma categórica que existe exatamente uma letra "r" na palavra inglesa "poop". Além disso, ao ser questionada sobre a palavra "journalism", a ferramenta apontou a existência de duas letras "d", soletrando o termo de forma completamente incorreta como "j-o-u-r-n-a-d-i-s-m". Em outro teste, a tecnologia identificou corretamente que há apenas uma letra "p" no sobrenome do ex-presidente dos Estados Unidos, Donald Trump, mas falhou miseravelmente na hora de soletrar o nome, gerando a sequência "t-r-p-u-m".

Em um comunicado oficial enviado por e-mail à redação do TechCrunch, o Google declarou formalmente que a contagem de letras dentro de palavras tem sido um desafio amplamente conhecido para grandes modelos de linguagem (LLMs), ressaltando que a equipe de engenharia está trabalhando ativamente para corrigir esse problema ortográfico específico. Esse tropeço ocorre em um momento altamente estratégico para a companhia de 29 anos de existência, que vem concentrando todos os seus esforços para estabelecer a inteligência artificial generativa como a peça central de seu mecanismo de busca na internet.

Histórico de falhas na busca

Essa nova polêmica com o AI Overviews reacende o debate sobre o lançamento problemático de novos recursos de busca integrados com inteligência artificial pelo Google. Na primeira vez em que a empresa tentou implementar resumos gerados por IA em sua busca, o sistema causou controvérsia ao indexar e reproduzir piadas de portais satíricos como o The Onion e discussões informais do fórum Reddit. O resultado prático dessa falta de filtragem incluiu sugestões absurdas para que os usuários consumissem pedras ou passassem cola escolar não tóxica em receitas de pizza para evitar que o queijo escorregasse da massa.

A gravidade dos problemas ortográficos e de processamento contextual do AI Overviews vai além de meras piadas na internet. De acordo com o texto de Amanda Silberling, o Google teve de corrigir às pressas um bug bizarro na semana anterior à publicação da reportagem, no qual a busca pela palavra "disregard" (desconsiderar, em inglês) exibia um resultado idêntico ao comando padrão de um chatbot: "Entendido. Deixe-me saber quando tiver um novo comando ou pergunta!", em vez de apresentar a definição real encontrada em um dicionário convencional.

Como a tecnologia funciona

Para decifrar por que sistemas avançados de inteligência artificial, capazes de resolver equações matemáticas complexas que intrigam cientistas há décadas, erram tarefas dignas do jardim de infância, é preciso compreender a arquitetura dos grandes modelos de linguagem (LLMs). Essas inteligências artificiais não processam a escrita da mesma maneira que um ser humano lê um livro. Em vez de lerem letra por letra ou palavra por palavra, os sistemas dependem de redes neurais do tipo transformers, que fragmentam o texto de entrada em unidades menores de processamento chamadas tokens.

Os tokens utilizados por sistemas de busca baseados em IA podem representar termos inteiros, sílabas específicas ou caracteres individuais isolados, variando de acordo com as especificações do modelo projetado. No momento em que um usuário envia uma busca ou prompt, o modelo de linguagem traduz esses pedaços de texto em códigos vetoriais e representações numéricas abstratas. São esses números que a IA analisa de forma contextual para prever matematicamente qual deve ser a resposta lógica subsequente, o que oculta a percepção das letras individuais que compõem cada termo escrito.

A arquitetura dos transformadores

O funcionamento interno e os limites dessa codificação matemática de textos foram detalhados à equipe do TechCrunch por especialistas da área de computação. Matthew Guzdial, pesquisador de inteligência artificial e professor assistente na Universidade de Alberta, explicou detalhadamente as limitações intrínsecas ao modelo de arquitetura de transformadores.

"Os LLMs são baseados nesta arquitetura transformer, que visivelmente não está lendo texto de verdade. O que acontece quando você insere um comando é que ele é traduzido em uma codificação", explicou Matthew Guzdial, pesquisador de IA e professor assistente na Universidade de Alberta, ao TechCrunch. "Quando ele vê a palavra 'the', ele tem essa codificação única do que 'the' significa, mas ele não sabe sobre 'T', 'H', 'E'."

Essa característica de abstração matemática explica o motivo pelo qual o tradicional teste de solicitar à inteligência artificial que conte quantas letras "r" existem na palavra "strawberry" tornou-se uma piada constante na indústria de tecnologia. Sempre que uma nova versão de modelo de fundação é anunciada, engenheiros e usuários realizam o teste da fruta para evidenciar que, apesar de conseguir escrever códigos complexos em poucos segundos, a máquina carece de percepção anatômica elementar dos caracteres devido ao isolamento provocado pela tokenização.

O posicionamento dos pesquisadores

Entre os cientistas e engenheiros que estudam a interpretabilidade de redes neurais artificiais, há um forte ceticismo sobre a viabilidade de uma correção definitiva para essas falhas de ortografia sem que ocorra uma mudança radical na estrutura dos algoritmos atuais. Sheridan Feucht, doutoranda em interpretabilidade de modelos de linguagem na Northeastern University, detalhou as barreiras que impedem os desenvolvedores de sanar de forma definitiva as falhas ortográficas de sistemas baseados em inteligência artificial.

"É meio difícil contornar a questão de o que exatamente uma 'palavra' deveria ser para um modelo de linguagem, e mesmo se conseguíssemos que especialistas humanos concordassem com um vocabulário de tokens perfeito, os modelos provavelmente ainda achariam útil agrupar as coisas ainda mais", explicou Sheridan Feucht, doutoranda na Northeastern University, ao TechCrunch. "Meu palpite seria que não existe um tokenizador perfeito devido a esse tipo de imprecisão."

Como o objetivo primordial no desenvolvimento de um grande modelo de linguagem (LLM) é a otimização da entrega de sentido, lógica e contextualização de ideias, a habilidade de soletrar perfeitamente ou contar letras não é vista como uma prioridade crítica para os laboratórios de pesquisa. Contudo, esses episódios de falhas na busca do Google funcionam como alertas necessários para lembrar a comunidade técnica e os usuários finais de que a inteligência artificial, embora simule uma capacidade de onisciência, é um sistema estatístico falível que exige verificação humana constante.

Análise e impactos de mercado

O cenário exposto pela análise de Amanda Silberling traz à tona discussões cruciais para o desenvolvimento do ecossistema de tecnologia de processamento de linguagem natural, especialmente no mercado brasileiro. No contexto do Brasil, onde a localização de ferramentas de busca depende da adaptação de modelos que foram originalmente treinados e tokenizados com base em dados massivos da língua inglesa, as ineficiências de tokenização podem ser ainda mais acentuadas.

A língua portuguesa apresenta uma vasta estrutura morfológica e conjugações verbais complexas que frequentemente são fragmentadas pelos algoritmos de modelos estrangeiros de maneira ineficiente, gerando um custo computacional mais elevado e uma probabilidade ampliada de erros em buscas avançadas. Para as empresas e profissionais de tecnologia brasileiros que planejam incorporar APIs de processamento do Google ou de outros sistemas em suas próprias aplicações comerciais, fica evidente a necessidade de implementar camadas intermediárias de software dedicadas exclusivamente à filtragem de texto tradicional, correção gramatical e validação sintática antes que as respostas geradas pelos transformers cheguem ao usuário final.

#google#ai-overviews#llm#tokenizacao#pesquisa-tecnologica
Compartilhar

Artigos Relacionados