Google DeepMind Apresenta a Próxima Geração de Robôs com IA
O Google DeepMind divulgou em 25 de setembro de 2025 o que descreve como um passo fundamental para a criação de agentes de inteligência artificial no mundo físico: o lançamento do Gemini Robotics 1.5 e do Gemini Robotics-ER 1.5. A proposta é direta: criar robôs que não apenas executam comandos, mas que percebem, planejam, pensam, utilizam ferramentas e agem para resolver tarefas complexas e com múltiplos estágios. Em suma, a promessa é transformar máquinas reativas em sistemas com raciocínio autônomo, um pleito audacioso que exige uma análise lógica de seus componentes.
O Cérebro e os Músculos: Uma Divisão Lógica de Tarefas
A arquitetura apresentada pelo Google DeepMind se baseia em uma premissa fundamentalmente lógica: a segregação de funções. Para que um robô execute uma tarefa complexa, como organizar objetos com base em regras de reciclagem locais, ele precisa de duas capacidades distintas: planejamento de alto nível e execução motora de baixo nível. A solução, segundo a empresa, é um sistema de dois modelos trabalhando em um "framework agêntico".
Funciona assim: se a tarefa exige raciocínio complexo, então o Gemini Robotics-ER 1.5 entra em ação. Este modelo, descrito como o "cérebro" da operação, é um VLM (Vision-Language Model) otimizado para raciocínio corporificado. Sua função é orquestrar as atividades do robô. Ele compreende o ambiente físico, interage em linguagem natural e, de forma notável, pode utilizar ferramentas digitais como o Google Search para buscar informações externas ou invocar funções definidas por terceiros. De acordo com o comunicado oficial, este modelo atinge performance de ponta em 15 benchmarks acadêmicos de compreensão espacial.
Uma vez que o plano está traçado, o cérebro envia as instruções em linguagem natural para os músculos. Senão, a execução seria descoordenada. O executor é o Gemini Robotics 1.5, um modelo VLA (Vision-Language-Action). Sua função é traduzir as instruções visuais e linguísticas em comandos motores diretos. É ele quem efetivamente move o braço, agarra o objeto e o coloca no lugar certo. A combinação desses dois modelos, ambos ajustados a partir da família Gemini principal, permite que o robô generalize para tarefas mais longas e ambientes diversos.
Pense, Logo Existo (e Ajo): A Lógica Interna dos Robôs
Uma das afirmações mais fortes do Google DeepMind é que o Gemini Robotics 1.5 pode "pensar antes de agir". Em termos computacionais, isso significa que, em vez de traduzir diretamente uma instrução para um movimento, o modelo gera uma sequência interna de raciocínio em linguagem natural. Essa espécie de monólogo interno permite que ele decomponha problemas complexos em etapas gerenciáveis.
O exemplo fornecido é a tarefa "Separe minha roupa por cor". A análise lógica do robô se daria em múltiplos níveis. Primeiro, o entendimento semântico: separar por cor significa colocar roupas brancas em um cesto e coloridas em outro. Depois, o planejamento da ação: pegar o suéter vermelho e colocá-lo no cesto preto. Por fim, o detalhe motor: mover o suéter para mais perto para facilitar a pegada. Esse processo de pensamento multinível, conforme a documentação, permite que o modelo se adapte a novas tarefas e seja mais robusto a mudanças no ambiente.
Um Robô Ensina o Outro? A Promessa da Aprendizagem Universal
Talvez a proposta mais ambiciosa seja a capacidade de "aprender através de diferentes corporificações" (embodiments). Historicamente, um grande obstáculo na robótica é a dificuldade de transferir aprendizado entre máquinas com formatos, sensores e graus de liberdade distintos. O que um braço robótico aprende não serve, a priori, para um robô humanoide.
O Google DeepMind alega que o Gemini Robotics 1.5 supera essa barreira. O modelo demonstrou a capacidade de transferir movimentos aprendidos de um tipo de robô para outro sem necessidade de especialização. No comunicado, a empresa observa que tarefas apresentadas durante o treinamento apenas ao robô ALOHA 2 funcionaram diretamente no robô humanoide Apollo, da Apptronik, e no robô de dois braços Franka. Se essa afirmação se provar verdadeira em larga escala, o impacto seria a aceleração exponencial do aprendizado de novas habilidades para qualquer plataforma robótica compatível.
Segurança Lógica: Os Robôs Seguirão as Leis?
Conceder capacidade de raciocínio a agentes físicos levanta, inevitavelmente, a questão da segurança. A resposta do Google DeepMind para essa variável é um "approach holístico". A empresa afirma que a segurança é implementada através de raciocínio semântico de alto nível, ou seja, o robô pensa sobre a segurança de uma ação antes de executá-la. Isso é complementado pelo alinhamento com as Políticas de Segurança Gemini existentes e pela capacidade de acionar subsistemas de segurança de baixo nível, como prevenção de colisões.
Para validar esses sistemas, a empresa anunciou uma atualização do benchmark ASIMOV, uma coleção de datasets para avaliar e melhorar a segurança semântica. Nos testes internos com este benchmark, o Gemini Robotics-ER 1.5 apresentou, segundo o relatório técnico, um desempenho de ponta, com sua capacidade de raciocínio contribuindo para uma melhor adesão a restrições de segurança física.
O Veredito: Um Passo Calculado Rumo ao Futuro
O anúncio do Gemini Robotics 1.5 é um marco lógico na jornada para a automação geral. Ao separar planejamento e execução, permitir um diálogo interno para resolução de problemas e viabilizar o aprendizado entre diferentes plataformas, o Google DeepMind estabelece uma base sólida. O Gemini Robotics-ER 1.5 já está disponível para desenvolvedores via API no Google AI Studio, enquanto o Gemini Robotics 1.5 está restrito a parceiros selecionados. O próximo passo será observar se, no mundo real, essas promessas se compilam em um resultado verdadeiro e funcional, ou se ainda restam bugs a serem corrigidos na lógica que conecta a IA ao mundo físico.
{{ comment.name }}
{{ comment.comment }}