O Crepúsculo de uma Era: Estaria o RAG com os Dias Contados?

Na dança incessante da evolução tecnológica, poucas certezas são eternas. O que hoje é a espinha dorsal de sistemas complexos, amanhã pode se tornar uma relíquia, uma lembrança de problemas que já não existem. É nesse cenário de impermanência que surge uma tese ousada, articulada por Nicolas Bustamante, um veterano com uma década de experiência em IA e busca: a arquitetura de Geração Aumentada por Recuperação, mais conhecida como RAG, pode estar caminhando para sua obsolescência. Segundo Bustamante, a combinação de janelas de contexto cada vez mais colossais e o surgimento de uma nova abordagem, a 'busca agentic', está tornando o complexo aparato do RAG um fardo desnecessário.

A Ascensão e a Realidade Matemática do RAG

Para entender o possível fim do RAG, precisamos lembrar por que ele nasceu. Quando o ChatGPT-3.5 surgiu em 2022, ele encantou o mundo, mas esbarrava em uma limitação severa: uma janela de contexto de apenas 4.096 tokens, o equivalente a cerca de seis páginas de texto. Como fazer um sistema tão inteligente trabalhar com bases de conhecimento que são ordens de magnitude maiores? A resposta foi o RAG, um padrão arquitetônico que, de forma elegante, bebeu da fonte dos motores de busca. A ideia era simples: se o modelo não pode ler o livro inteiro, vamos encontrar os trechos mais relevantes e entregá-los para que ele sintetize a resposta. Como Bustamante descreve, era como ler um relatório financeiro através do buraco de uma fechadura. Com o GPT-4 e seus 8.192 tokens, a situação melhorou, mas não resolveu a questão fundamental: um único relatório financeiro da SEC (a comissão de valores mobiliários dos EUA) pode ter mais de 51.000 tokens. O RAG era a solução, mas uma solução que trazia consigo uma complexidade imensa.

O Pesadelo dos Pedaços: A Dança Complexa do RAG

O processo do RAG começa com um desafio chamado 'chunking', ou fragmentação. Documentos longos precisam ser quebrados em pedaços digeríveis. O problema, como aponta Nicolas Bustamante, é que uma fragmentação ingênua pode destruir o sentido. Em um relatório financeiro, políticas de receita podem ser divididas em três 'chunks' diferentes, cabeçalhos de tabelas podem ser separados de seus dados e a análise da gestão pode ser divorciada dos números que a justificam. Para contornar isso, empresas como a Fintool, onde Bustamante atua, desenvolveram estratégias sofisticadas para preservar a estrutura hierárquica e a integridade dos dados. Mas o problema persistia: ainda se trabalhava com fragmentos, não com o todo.

Depois de fragmentar, vem a busca. Cada 'chunk' é transformado em um vetor numérico (embedding) e, quando uma pergunta é feita, o sistema busca os vetores mais próximos. Na teoria, parece perfeito. Na prática, Bustamante descreve como “um pesadelo de casos excepcionais”. Modelos de embedding, treinados em textos gerais, sofrem com terminologias específicas, confundindo conceitos como “reconhecimento de receita” (uma política contábil) com “crescimento de receita” (um indicador de desempenho). A solução foi o 'hybrid search', combinando a busca semântica dos embeddings com a busca por palavra-chave do tradicional BM25. E como se não bastasse, uma etapa final de 'reranking' se tornou necessária para reordenar os resultados e entregar ao LLM apenas os mais relevantes, adicionando latência e custos significativos a cada consulta.

Bustamante chama isso de “problema da falha em cascata”. Cada etapa — chunking, embedding, busca, fusão e reranking — pode falhar, e o erro de uma se propaga para a seguinte. Somam-se a isso os custos e a complexidade de manter a infraestrutura, como clusters Elasticsearch, que exigem reindexações demoradas e gerenciamento constante.

A Revolução do Contexto e a Simplicidade Primitiva

Dois fenômenos estão desmantelando essa torre de complexidade. O primeiro é a explosão das janelas de contexto. Passamos da era 'pobre em contexto' do GPT-4 (8 mil tokens) para a era da abundância, com modelos como Gemini 2.5 (1 milhão de tokens) e Grok 4-fast (2 milhões de tokens). Com 2 milhões de tokens, é possível analisar um ano inteiro de relatórios financeiros de uma empresa de uma só vez. A necessidade de fragmentar o conhecimento está simplesmente desaparecendo.

O segundo fenômeno é a 'busca agentic', um paradigma que Bustamante observou em ação com o Claude Code, uma IA para programação. Em vez de um pipeline RAG, a ferramenta usa comandos diretos e primitivos, como o Grep (criado em 1973), para investigar o código-fonte em tempo real. Não há indexação, não há embeddings, não há reranking. A IA age como um agente que investiga ativamente os arquivos, em vez de depender de um índice pré-processado. “É simples, é rápido e se baseia em uma nova premissa de que os LLMs passarão de pobres em contexto para ricos em contexto”, afirma Bustamante. A IA não recupera fragmentos; ela investiga o documento completo.

O Agente Investigador vs. O Assistente com Amnésia

A diferença entre as abordagens é filosófica. Bustamante traça uma analogia poderosa: o RAG é como um assistente de pesquisa com memória perfeita, mas sem compreensão. Ele pode lhe entregar 50 passagens que mencionam “dívida”, mas não sabe dizer se ela está aumentando, por quê, ou como se conecta a outras partes do negócio. A busca agentic, por outro lado, é como um contador forense. Ele segue o dinheiro, entende as relações contábeis, identifica o que está faltando e conecta os pontos entre diferentes documentos e períodos de tempo.

Um agente de IA, munido de uma vasta janela de contexto, pode seguir referências como um humano faria. Ele pode ver um “Consulte a Nota 12” no texto, navegar até a Nota 12, encontrar uma referência à Nota 23 e seguir a trilha até desvendar a informação completa. Ele não busca por similaridade; ele navega com lógica.

O Futuro Pós-Recuperação

A conclusão de Nicolas Bustamante é provocadora e direta. O RAG foi um andaime brilhante para uma era de limitações, um conjunto de 'rodinhas de treinamento' que nos permitiu usar LLMs enquanto suas capacidades eram restritas. Agora, com janelas de contexto que podem abrigar bibliotecas inteiras e agentes capazes de raciocinar sobre elas, essa estrutura está se tornando um peso morto. O futuro da busca em IA não pertencerá a quem tem o maior banco de dados de vetores, mas a quem projeta os agentes mais inteligentes para atravessar essa abundância de contexto. A recuperação não está morta, mas, como conclui Bustamante, ela acaba de ser rebaixada de protagonista a coadjuvante. E nós, testemunhas dessa transição, somos deixados com uma pergunta: o que significa interagir com uma inteligência que não precisa mais de um mapa, pois pode ver o território inteiro?