A Geração 'Lake House' e o Esquecimento dos Clássicos

Houve um tempo, não muito distante, em que a engenharia de dados era uma arte construída sobre pilares sólidos, quase sagrados. Um desses pilares era a modelagem de dados, uma disciplina que exigia rigor, planejamento e uma compreensão profunda da estrutura da informação. No entanto, um artigo recente do portal 'Confessions of a Data Guy' joga uma pá de cal nessa nostalgia, proclamando em letras garrafais: A MODELAGEM DE DADOS ESTÁ MORTA. E o motivo, segundo o autor, é uma nova geração de engenheiros que 'mamou na teta' de Data Lakes e Lake Houses, alimentada por 'mães tiranas e indiferentes' como Databricks, Snowflake e AWS.

A crítica é direta: a era do 'Modern Data Stack' e das arquiteturas da moda, como a Medallion, acostumou os novos profissionais a uma vida de conveniência. Para que se preocupar com detalhes 'irritantes' como normalização ou esquemas estrela e floco de neve, quando se pode ter um 'belo Notebook conectado a um fluxo infinito de computação Spark'? A ironia do autor aponta para uma cultura onde a velocidade para 'despejar' dados em um repositório superou a necessidade de estruturá-los de forma coesa e inteligente. A consequência direta é o abandono gradual do que antes era considerado a bíblia do setor: o 'Data Warehouse Toolkit' de Kimball. Se antes os debates giravam em torno de Fatos e Dimensões, hoje, para muitos, esses termos soam como artefatos de uma civilização perdida.

O Ruído dos Fornecedores e a Ausência de um Norte

Um dos principais culpados por essa mudança de paradigma, de acordo com a análise do 'Confessions of a Data Guy', é o barulho ensurdecedor do marketing dos grandes fornecedores de SaaS. Enquanto no passado a comunidade se unia em torno de um consenso, guiado por obras como a de Kimball, hoje o cenário é fragmentado. As vozes que mais se ouvem são as das próprias empresas que vendem as ferramentas, cada uma pregando sua própria metodologia como a verdade absoluta. O autor chega a compará-los a 'cambistas perversos' em um templo, vendendo soluções com uma linguagem de marketing escorregadia.

Nesse vácuo de autoridade imparcial, falta um guia, uma referência técnica sólida para a modelagem de dados na era do Lake House. O livro 'Fundamentals of Data Engineering' de Joe Reis é citado como uma das poucas vozes 'razoáveis e imparciais' da engenharia de dados moderna, mas ainda não é o suficiente para preencher a lacuna deixada pelos antigos manuais. Sem um norte claro, a prática atual se resume a improvisar. A maioria das informações técnicas disponíveis sobre modelagem de dados ainda se refere a bancos de dados relacionais tradicionais, como Postgres e MySQL, e sua aplicação em um Data Lake moderno é mínima e cheia de adaptações.

Conceitos Clássicos em um Mundo Novo: Tudo Mudou?

Para ilustrar como as fundações mudaram, o autor pega um conceito fundamental de Kimball: a granularidade da tabela de fatos. Na era clássica dos Data Warehouses, a granularidade era definida e garantida por chaves primárias, simples ou compostas, que eram impostas pela própria tecnologia do banco de dados. Era uma lei. Hoje, no mundo do Lake House, a ideia ainda existe, mas sua implementação é completamente diferente.

Em plataformas como Delta Lake ou Apache Iceberg, a organização dos dados é feita por particionamento e clustering (como o Z-ORDERing), não por índices e chaves primárias fiscalizadas pelo sistema. O autor menciona que, em seus próprios projetos, ainda força seus engenheiros a criarem uma chave primária calculada para definir a granularidade de cada tabela, mas admite que isso é apenas uma regra lógica, um contrato de cavalheiros, pois a tecnologia em si não impõe essa restrição. Esse 'detalhe' técnico é, na verdade, uma mudança sísmica. O que antes era uma barreira de proteção contra a inconsistência, agora é apenas uma sugestão que pode ser ignorada.

À Espera de um Messias (ou de um Manual)

O sentimento que permeia a publicação é de frustração e espera. A comunidade técnica parece estar à deriva, aguardando um 'messias da modelagem de dados' que venha para salvar a todos dos 'pecados coletivos do Lake House'. A conclusão do autor é sombria: como habilidade técnica, a modelagem de dados morreu há cerca de oito anos, relegada ao mesmo status da Qualidade de Dados — algo que todos mencionam da boca para fora, mas poucos praticam com seriedade.

O clamor não é por um retorno ao passado, mas por uma ressurreição. Há uma necessidade urgente de que alguém inteligente e respeitado 'baixe a lei', escreva um novo livro sagrado, cujos mandamentos possam ser usados para guiar e, se necessário, 'bater nos novatos até que se submetam'. Enquanto esse novo profeta não surge, a engenharia de dados vive uma crise de identidade, dividida entre a velocidade prometida pelas novas tecnologias e a robustez dos princípios que, por ora, parecem ter sido esquecidos no fundo do lago de dados.