Subquadratic revela detalhes do modelo SubQ para romper gargalo de LLMs

Em 19 de junho de 2026, a startup de inteligência artificial Subquadratic, sediada em Miami, nos Estados Unidos, revelou novos detalhes técnicos e relatórios de auditoria independente sobre o funcionamento de seu novo modelo de linguagem de grande porte, batizado de SubQ. A empresa afirma categoricamente ter solucionado um gargalo matemático complexo que limita o desempenho, o custo e a escalabilidade dos Grandes Modelos de Linguagem (LLMs) há quase uma década. Com a publicação de análises de performance conduzidas por uma entidade externa de testes, a startup busca fornecer dados empíricos sólidos para rebater o ceticismo inicial manifestado por engenheiros de software e analistas do mercado de tecnologia desde que a companhia revelou suas tecnologias preliminares.

Rack de servidores modernos e eficientes com luzes de LED verdes e azuis em um data center de alta tecnologia — Foto: MIT Technology Review

A Subquadratic havia saído oficialmente de seu período de desenvolvimento confidencial (stealth mode) em maio de 2026, atraindo a atenção do setor de tecnologia ao anunciar conquistas extraordinárias de eficiência computacional que, no primeiro momento, não contavam com ampla documentação pública. Ciente de que a indústria de inteligência artificial exige validações externas para sustentar alegações de alto impacto, o corpo diretivo da startup, composto pelo CEO e cofundador Justin Dangel e pelo CTO Alex Whedon, optou por submeter o algoritmo do modelo SubQ a um conjunto de testes padronizados gerenciados pela Appen, uma renomada empresa global especializada na avaliação e controle de qualidade de sistemas de IA generativa.

Os testes independentes aplicados pela equipe da Appen, sob a supervisão técnica direta de Jeanine Sinanan-Singh, diretora de pesquisa em inteligência artificial generativa da instituição avaliadora, trouxeram métricas robustas que confirmam as bases da nova arquitetura proposta pela startup. O modelo SubQ não apenas manteve altos índices de precisão em lógica e programação, mas demonstrou ser até 56 vezes mais veloz em testes teóricos de vazão computacional quando comparado a sistemas tradicionais otimizados com o mecanismo FlashAttention, que atualmente serve de referência para otimização de atenção no mercado internacional.

O gargalo dos transformers

Para mensurar a relevância técnica da proposta da Subquadratic, é indispensável examinar o funcionamento interno das redes neurais que sustentam os assistentes de inteligência artificial modernos. A base de quase todos os LLMs de ponta atuais é o transformer, uma arquitetura de aprendizado profundo revolucionária apresentada de forma pioneira por um grupo de pesquisadores do Google no ano de 2017 no célebre artigo acadêmico intitulado "Attention Is All You Need". O principal motor de processamento dessas redes neurais clássicas reside na operação de atenção densa, técnica que exige um volume de processamento massivo para correlacionar cada elemento de um texto enviado.

No fluxo operacional de um transformador convencional baseado em atenção densa, o sistema precisa converter o texto inserido pelo usuário em representações numéricas chamadas de tokens, que representam palavras ou partes delas. Para que o algoritmo capture o contexto de forma satisfatória, ele realiza multiplicações matemáticas de todos os tokens entre si. O cofundador e CEO Justin Dangel recorre a uma analogia clássica para descrever a ineficiência inerente a esse processo: caso um modelo tradicional tente analisar o livro "O Grande Gatsby", ele será obrigado a examinar a primeira palavra em relação direta com a última, além de calcular simultaneamente todas as outras conexões possíveis do texto.

Essa mecânica de multiplicação matricial exaustiva gera um crescimento exponencial no volume de cálculos necessários para o funcionamento dos sistemas à medida que novos blocos de texto são processados pelos servidores. Em termos matemáticos claros, um documento de tamanho médio contendo cerca de 10.000 palavras exige que o hardware de processamento realize aproximadamente 50 milhões de multiplicações matemáticas isoladas. O maior desafio operacional reside no fato de que o aumento de tokens não segue uma progressão linear simples: ao duplicar a quantidade de palavras de uma determinada consulta, o volume de processamento exigido é quadruplicado, uma taxa de progressão severa conhecida cientificamente como expansão quadrática.

A fim de demonstrar a complexidade dessa limitação de escalabilidade física, o CTO Alex Whedon propõe um exercício de visualização baseado em um círculo com marcações de pontos ao redor de sua borda externa, onde cada um dos pontos representa um token linguístico específico de uma instrução. Ao desenharmos linhas de ligação cruzando o espaço interno do círculo para interligar cada ponto a todos os outros, um cenário inicial com cinco pontos demandará traçar 10 linhas físicas. Contudo, se aumentarmos a amostra para apenas 10 pontos, precisaremos desenhar 45 linhas; com 20 pontos, o total explode para 190 conexões, o que explica de forma geométrica por que os servidores atuais demandam gigawatts de eletricidade.

A arquitetura do SubQ

A solução desenvolvida pela equipe de engenharia da Subquadratic para contornar essa barreira física consiste em remover o mecanismo de atenção densa do núcleo de processamento dos transformadores tradicionais. O modelo proprietário SubQ substitui essa operação pesada por uma técnica inovadora chamada de atenção esparsa (sparse attention), projetada com o objetivo de reduzir de maneira considerável a quantidade de operações matemáticas necessárias. Em vez de multiplicar a representação numérica de cada termo por todas as variáveis da consulta, o algoritmo seleciona de forma estratégica apenas algumas relações cruciais para a compreensão do arquivo analisado.

Embora o conceito de atenção esparsa seja conhecido pelos pesquisadores de sistemas de processamento de linguagem natural, sua aplicação viável sem perda de acurácia técnica representa uma barreira histórica para o desenvolvimento de software. Will Depue, pesquisador independente de inteligência artificial e ex-integrante do corpo técnico da OpenAI, pondera que quase todas as variações de algoritmos esparsos já foram testadas pela indústria no passado, comparando a superação prática desse gargalo à marca histórica de correr uma milha em menos de quatro minutos. Até as recentes descobertas aplicadas no SubQ, os modelos esparsos sacrificavam a capacidade de extrair sentido semântico profundo em documentos complexos.

De acordo com explicações do CTO Alex Whedon, os projetos concorrentes que tentavam aplicar atenção esparsa historicamente falhavam por depender de metodologias de triagem estáticas e excessivamente simplistas. Esses modelos do passado operavam sob padrões rígidos, como comparar de forma sistemática e invariável a primeira palavra sempre com a quinta palavra do bloco, o que limitava a análise de estruturas gramaticais sofisticadas da linguagem humana. A inovação estrutural da Subquadratic reside no fato de que o SubQ realiza uma seleção dinâmica calculada em tempo real para cada documento individual fornecido ao sistema.

Embora o método exato de cálculo dinâmico seja mantido em segredo comercial sob a classificação de propriedade industrial da startup de Miami, o impacto direto dessa triagem se reflete na extensão útil da janela de contexto do SubQ. Enquanto os principais assistentes generativos de última geração disponíveis comercialmente operam com memórias de trabalho limitadas a 1 milhão de tokens por consulta, o SubQ gerencia com precisão contextos colossais de até 12 milhões de tokens. Essa escala de armazenamento temporário permite o processamento simultâneo de volumes maciços de informação, como repositórios inteiros de código-fonte de sistemas corporativos complexos.

Os testes da Appen

Para certificar as alegações técnicas do modelo perante o ecossistema global de tecnologia, a auditoria externa executada pela Appen aplicou diferentes metodologias de teste padronizadas pela comunidade acadêmica. No benchmark LiveCodeBench, uma plataforma que avalia a eficiência de algoritmos de inteligência artificial na resolução de problemas complexos de programação extraídos de torneios reais de codificação, o SubQ atingiu uma pontuação de 89,7%. O resultado numérico posiciona a tecnologia da startup no mesmo nível de desempenho geral das ferramentas mantidas por Google DeepMind, OpenAI e Anthropic nessa disciplina específica.

Em testes laboratoriais adicionais voltados para medir unicamente a taxa máxima de vazão computacional dos sistemas sob análise, a equipe comandada por Jeanine Sinanan-Singh identificou resultados expressivos de velocidade. O algoritmo do SubQ demonstrou ser 56 vezes mais veloz em velocidade bruta do que implementações configuradas de modo padrão com a biblioteca FlashAttention. De acordo com a análise da diretora de pesquisa da Appen, os resultados são empolgantes porque validam diretamente o potencial prático da arquitetura de processamento em resolver gargalos severos de lentidão operacional que afetam os provedores de serviços generativos.

"Esse modelo continua a fornecer um desempenho de fronteira em codificação. Fiquei muito animada, isso validou a arquitetura deles. Eu pensei: 'Nossa, isso pode ser um divisor de águas', porque os modelos lutam com velocidade e ineficiência. Mas quando você apresenta resultados chocantes, não é tão crível quando você mesmo os diz."

O relatório emitido pela Appen também documentou o desempenho do SubQ no teste de recuperação conhecido como "agulha no palheiro" (needle-in-a-haystack), projetado para avaliar a capacidade de um modelo de encontrar uma informação específica oculta dentro de um imenso banco de dados. Operando em escalas extremas com janelas de contexto configuradas em 6 milhões e 12 milhões de tokens, o modelo da startup de Miami obteve um índice de precisão e recuperação estável de 98%. O laudo técnico destacou que a ferramenta manteve uma taxa de resgate quase perfeita em níveis de volume de dados que pouquíssimos modelos no mercado global são submetidos a testar.

A robustez prática dessa capacidade de processamento com contexto estendido foi evidenciada em uma demonstração em tempo real conduzida por Alex Whedon. O executivo alimentou o SubQ com um repositório composto por 400 documentos técnicos e solicitou uma varredura de dados complexos, com a inteligência artificial fornecendo a resposta estruturada em poucos segundos. Na mesma simulação presencial, o CTO inseriu o mesmo lote de 400 arquivos digitais no Perplexity, um popular mecanismo de busca automatizado baseado em modelos de linguagem concorrentes, mas a plataforma concorrente não conseguiu carregar os documentos para indexação.

Custos e acesso comercial

Os benefícios econômicos gerados pela eficiência energética prometida pela Subquadratic trazem implicações importantes para o orçamento de desenvolvimento de soluções corporativas. O CEO Justin Dangel apresentou uma comparação financeira direta baseada na execução do benchmark RULER 128, um teste desenvolvido pela fabricante de chips Nvidia para medir a precisão na recuperação de dados em grandes bancos de dados estruturados. De acordo com as métricas compartilhadas por Dangel, processar as rotinas do teste RULER 128 utilizando o modelo proprietário Opus 4.6 da Anthropic resultou em uma fatura de US$ 2.600, enquanto a execução dos mesmos processos sob a infraestrutura do SubQ consumiu apenas US$ 8.

Embora os relatórios apresentem custos operacionais extremamente baixos e vantagens competitivas significativas no papel, o acesso prático à nova tecnologia ainda é limitado aos desenvolvedores de sistemas. A Subquadratic informou que sua lista de espera para chaves de acesso de desenvolvimento antecipado já conta com dezenas de milhares de profissionais inscritos em todo o mundo, incluindo mais de 500 clientes corporativos de grande porte. A empresa justifica a lentidão na distribuição do acesso geral devido às limitações de infraestrutura física de servidores e à equipe reduzida comuns a uma empresa iniciante de tecnologia.

Essa restrição na disponibilização do modelo para testes públicos em larga escala fundamenta os argumentos de profissionais que mantêm postura de cautela técnica. O engenheiro de software Dan McAteer sintetizou as preocupações gerais que circulam nas comunidades de desenvolvimento de sistemas ao publicar em seu perfil na rede social X uma declaração sobre as alternativas de futuro para a startup: ou o modelo SubQ se consolidará como o maior avanço técnico da indústria desde o Transformer de 2017, ou o projeto acabará classificado como uma espécie de equivalente ao caso "Theranos" aplicado ao mercado de algoritmos de inteligência artificial.

"O SubQ é o maior avanço desde o Transformer... ou é a Theranos da inteligência artificial."

O uso de Qwen

Uma das principais fontes de controvérsia técnica e debate acadêmico em torno das credenciais científicas da Subquadratic diz respeito ao método de engenharia adotado para construir a inteligência artificial. Em vez de treinar o modelo de linguagem do zero absoluto — processo que requer investimentos de dezenas de milhões de dólares e meses de processamento contínuo em supercomputadores —, a startup utilizou os pesos (weights) pré-treinados de uma versão de código aberto do modelo chinês Qwen para acelerar a criação do SubQ. Os pesos representam os coeficientes numéricos internos estabelecidos que definem as tomadas de decisão lógicas do sistema.

A prática de reaproveitar o conhecimento acumulado de arquiteturas estáveis de código aberto, processo conhecido no meio técnico como inicialização por bootstrap, é comum e aceita no desenvolvimento de inteligência artificial generativa. No entanto, o ex-pesquisador da OpenAI Will Depue ressalta que esse procedimento enfraquece a alegação corporativa de que a startup revolucionou por completo o desenvolvimento estrutural de LLMs do zero. Para os críticos do projeto, o aproveitamento direto das estruturas herdadas do ecossistema Qwen indica que o SubQ pode funcionar como um refinamento profundo de tecnologias existentes, em vez de representar uma quebra absoluta de paradigma matemático no núcleo dos códigos.

O CTO Alex Whedon defende de forma pragmática as decisões técnicas adotadas pela engenharia de software da startup de Miami, justificando-as como imposições decorrentes da escassez de recursos financeiros. O executivo declarou que, ao competir diretamente contra gigantes de capital multibilionário como a OpenAI, focar os recursos financeiros e operacionais escassos na inovação direta da atenção representava a única estratégia de engenharia sustentável para a sobrevivência do modelo comercial de negócios.

"Nós esperamos ceticismo saudável. Olhando para trás, lançar os benchmarks de terceiros junto com o anúncio inicial teria evitado muito do ceticismo, e é por isso que estamos nos dedicando a garantir que quaisquer resultados futuros sejam totalmente verificados antes de divulgá-los. Nós esperamos estar iniciando uma nova era de eficiência. Não achamos que ninguém construirá sobre transformers daqui a alguns anos. Estamos mais sob pressão do que a OpenAI está."

Impacto no mercado brasileiro

A viabilização comercial em escala de sistemas baseados em atenção esparsa como o SubQ tem o potencial de gerar impactos significativos no ecossistema de tecnologia da informação no Brasil. Atualmente, as empresas e startups brasileiras enfrentam barreiras severas de custos operacionais ao depender de faturamento dolarizado cobrado por provedores internacionais de computação em nuvem para executar tarefas de inteligência artificial generativa. A possibilidade de reduzir custos de infraestrutura e processamento pode descentralizar o acesso a soluções avançadas de dados para além das grandes corporações nacionais.

Se a redução de custos de computação anunciada por Justin Dangel de milhares de dólares para taxas de um único dígito for estendida a aplicações comerciais gerais, startups brasileiras poderão estruturar seus orçamentos de processamento de forma previsível e enxuta. A economia em taxas de APIs e inferência permitirá o desenvolvimento de ferramentas proprietárias focadas em mercados de alta demanda local, como a automação de auditorias fiscais ou análise de dados de safras no setor de agronegócio nacional, sem depender de pesados investimentos em rodadas de financiamento estrangeiro.

Além disso, o desempenho apresentado pelo modelo SubQ ao analisar 400 documentos técnicos sem comprometer a estabilidade do sistema traz perspectivas interessantes para o setor público e o segmento jurídico brasileiro. O Judiciário nacional, que lida historicamente com milhões de processos e petições acumulados nos tribunais digitais do país, poderia utilizar tecnologias de processamento com janelas de contexto estendido para agilizar triagens manuais exaustivas. O desenvolvimento de modelos de inteligência artificial eficientes demonstra que a quebra do limite quadrático das redes neurais pode se traduzir em ferramentas eficientes para a modernização de serviços de interesse diário de toda a sociedade brasileira.

Subquadratic revela detalhes do modelo SubQ para romper gargalo de LLMs

O gargalo dos transformers

A arquitetura do SubQ

Os testes da Appen

Custos e acesso comercial

O uso de Qwen

Impacto no mercado brasileiro

Artigos Relacionados

De sapatos a chips: ex-AWS lidera Smartbird em pivô de IA sob nova gestão

O impacto do banimento do Fable 5 e Mythos 5 da Anthropic

Reliance investe US$ 110 bilhões em IA nativa e desafia gigantes globais