Claude 4 da Anthropic: análise técnica após duas semanas de uso
Testamos o Claude 4 em cenários reais de código, análise de documentos e raciocínio longo. Aqui está o que encontramos além dos benchmarks.
O Llama 4 superou modelos proprietários em vários benchmarks e pode ser executado localmente. Analisamos o que isso muda para empresas e desenvolvedores.
A Meta lançou o Llama 4 com uma afirmação ousada: o modelo supera o GPT-4o e o Claude 3.5 Sonnet em benchmarks de raciocínio e código. A novidade é que tudo isso pode rodar localmente, com os pesos disponíveis gratuitamente.
Em MMLU (medida de conhecimento geral), o Llama 4 70B atinge 88.5%, comparado com 86.4% do GPT-4o. No HumanEval (código), a diferença é menor, mas o modelo open-source se sai surpreendentemente bem.
Para empresas que lidam com dados sensíveis — saúde, jurídico, financeiro —, a possibilidade de rodar um modelo competitivo on-premise elimina a principal objeção regulatória ao uso de IA generativa. Isso é particularmente relevante no contexto da LGPD.
Testamos o Claude 4 em cenários reais de código, análise de documentos e raciocínio longo. Aqui está o que encontramos além dos benchmarks.
O GPT-5 chega com raciocínio aprimorado, janela de contexto expandida e custo menor por token. Veja o que realmente muda para quem constrói em cima da API.

Pesquisadores mapearam cada um dos 130 mil neurônios do cérebro da Drosophila melanogaster e usaram o conectoma completo para criar uma simulação que replica comportamentos reais da mosca.