Anthropic bota 16 Claudes pra trabalhar e eles constroem um compilador C

A Promessa: 16 IAs, um Compilador e a Automação Total

Em uma publicação de 5 de fevereiro de 2026, Nicholas Carlini, pesquisador da Anthropic, detalhou um experimento audacioso: 16 instâncias do modelo Claude Opus 4.6, operando em equipe, construíram um compilador C do zero. O resultado: 100.000 linhas de código em Rust, capaz de compilar o kernel do Linux 6.9. O bug está instalado: a máquina agora programa a si mesma, e os desenvolvedores podem se aposentar. Certo? Falso. Vamos analisar os fatos, peça por peça.

Desbugando o Experimento: O que Realmente Aconteceu?

Para entender o alcance real deste feito, precisamos dissecar a metodologia e os resultados. A premissa é que se 16 agentes de IA trabalham em paralelo, eles podem construir software complexo de forma autônoma. A conclusão, no entanto, é mais complexa.

Os Parâmetros do Teste

O Time: 16 agentes do modelo Claude Opus 4.6.
A Tarefa: Criar um compilador C em Rust, sem acesso à internet durante o desenvolvimento.
O Custo: Aproximadamente US$ 20.000 em custos de API, consumindo 2 bilhões de tokens de entrada.
O Tempo: Duas semanas de trabalho colaborativo.

O Resultado: Funcional, Mas com Asteriscos

O compilador, de fato, funciona. Ele consegue compilar projetos robustos como QEMU, FFmpeg e até rodar o jogo Doom — um clássico teste de fogo para desenvolvedores. Contudo, a análise forense revela limitações cruciais que o marketing tende a omitir:

Dependência Externa: O compilador não é 100% autossuficiente. Ele precisa invocar o GCC (um compilador humano-cêntrico) para etapas críticas, como a inicialização do Linux no modo real de 16 bits. Se a IA não consegue resolver uma parte, ela "trapaceia" usando uma ferramenta existente.
Eficiência Questionável: O código gerado é menos eficiente que o do GCC, mesmo quando o GCC opera com todas as otimizações desativadas. Tradução: a IA fez o trabalho, mas não o fez bem.
Qualidade do Código: Segundo o próprio Carlini, a qualidade do código Rust "não se aproxima da qualidade que um programador Rust especialista produziria". É funcional, mas não elegante ou otimizado.
O Limite da Complexidade: O projeto atingiu um teto de 100.000 linhas de código, onde novas funcionalidades e correções de bugs começavam a quebrar o que já existia. Isso sugere um limite prático para a capacidade atual dos agentes de gerenciar complexidade.

O Fator Humano: O Verdadeiro Orquestrador do "Trabalho Autônomo"

Aqui reside a falácia central da narrativa de "autonomia". O sucesso do experimento não se deveu a uma epifania coletiva das IAs, mas sim a um elaborado arcabouço de engenharia criado por Nicholas Carlini. Ele atuou como um arquiteto e gestor de projeto invisível.

Se os agentes trabalhassem sem supervisão, então eles teriam falhado. A intervenção humana foi fundamental:

Criação de Testes de Alta Qualidade: Carlini desenvolveu um sistema de testes "quase perfeito" para garantir que os agentes não resolvessem o problema errado. Sem um "verificador de tarefas" humano, o projeto descarrilaria.
Adaptação do Ambiente: Ele ajustou o feedback para não poluir a janela de contexto dos modelos e criou modos "rápidos" para que as IAs não ficassem presas em loops de teste por horas.
Resolução de Impasses: Quando todos os 16 agentes ficaram presos no mesmo bug ao compilar o kernel, Carlini criou uma solução: usar o GCC como um "oráculo" para dividir a tarefa e permitir que cada agente trabalhasse em um problema diferente.

Portanto, a afirmação de que foi um trabalho autônomo é, logicamente, falsa. Foi um trabalho fortemente supervisionado e guiado por um humano, onde a IA atuou como uma ferramenta de execução em escala.

A Caixa de Ferramentas: O que Concluir Disso?

Este experimento da Anthropic não é o prenúncio do fim dos programadores, mas sim um marco importante sobre o futuro das ferramentas de desenvolvimento. Ele nos mostra o que é possível, mas também onde estão os limites atuais.

Sua caixa de ferramentas para analisar notícias sobre IA e programação autônoma deve conter as seguintes perguntas:

Qual foi o nível real de intervenção humana? Procure pelo arquiteto por trás da "autonomia".
Quais são as limitações e dependências do resultado final? O sistema é verdadeiramente independente ou depende de ferramentas existentes?
Como a qualidade e a eficiência se comparam com o trabalho humano especializado? Funcionalidade não é sinônimo de excelência.
Qual foi o custo (financeiro e computacional) para alcançar o resultado? A solução é prática e escalável no mundo real?

A conclusão lógica é clara: equipes de agentes de IA são uma ferramenta poderosa de amplificação, não de substituição. O papel do desenvolvedor está evoluindo de escritor de código para arquiteto de sistemas, curador de testes e supervisor de agentes inteligentes. O bug não é a automação; o bug é acreditar que ela acontece sem um mestre humano nos bastidores.

Comentários

{{ totalComments !== null ? totalComments : comments.length }} comentários

{{ Math.max(0, commentCharLimit - (newCommentText || '').length) }} caracteres restantes

Seja o primeiro a comentar.

{{ c.user_name }}

{{ Math.max(0, commentCharLimit - (editingText || '').length) }} caracteres restantes

Fim dos comentários

Página não encontrada

{{ sp.title }}

Anthropic bota 16 Claudes pra trabalhar e eles constroem um compilador C

A Promessa: 16 IAs, um Compilador e a Automação Total

Desbugando o Experimento: O que Realmente Aconteceu?

Os Parâmetros do Teste

O Resultado: Funcional, Mas com Asteriscos

O Fator Humano: O Verdadeiro Orquestrador do "Trabalho Autônomo"

A Caixa de Ferramentas: O que Concluir Disso?

Página não encontrada

{{ sp.title }}

A Promessa: 16 IAs, um Compilador e a Automação Total

Desbugando o Experimento: O que Realmente Aconteceu?

Os Parâmetros do Teste

O Resultado: Funcional, Mas com Asteriscos

O Fator Humano: O Verdadeiro Orquestrador do "Trabalho Autônomo"

A Caixa de Ferramentas: O que Concluir Disso?

{{ rn.title }}

{{ rn.title }}