Uma investigação recente, divulgada pelo Olhar Digital, revelou que o DataComp CommonPool, um dos maiores repositórios de imagens e dados textuais usados para treinar inteligências artificiais, contém um verdadeiro baú de informações sensíveis. O repositório, lançado em 2023 e reunindo impressionantes 12,8 bilhões de amostras, foi criado com o objetivo de alimentar algoritmos visuais com o máximo de conteúdo disponível na internet. No entanto, ao meio de paisagens e objetos inócuos, os pesquisadores encontraram dados pessoais delicados, como selfies, passaportes digitalizados, CPFs, currículos e até cartas de apresentação.
De acordo com o estudo, que ficou conhecido após a publicação do artigo "Seu rosto, CPF e currículo podem estar alimentando IAs; entenda", os dados foram coletados automaticamente sem critérios rígidos, o que levanta questões sérias sobre privacidade e a vulnerabilidade dos dados públicos. Com mais de 800 currículos e documentos pessoais rastreados até perfis reais nas redes sociais, especialmente no LinkedIn, a pesquisa demonstra que nem tudo que está disponível na internet deveria ser livre para uso indiscriminado. A licença do projeto, inclusive, permite o uso comercial dessas imagens, abrindo portas para que empresas utilizem esse material sem restrições mais concretas.
Riscos para a privacidade e a segurança dos dados
Os dados contidos no CommonPool foram, em sua maioria, coletados por meio do projeto Common Crawl, entre 2014 e 2022, e serviram, em partes, para alimentar outros bancos de dados conhecidos, como o LAION-5B, que por sua vez deram origem a ferramentas populares como o Stable Diffusion e o Midjourney. Essa conexão mostra que os problemas de privacidade identificados agora podem estar presentes em diversos modelos de IA já amplamente utilizados. É surpreendente – e um tanto irônico – perceber que, enquanto trabalhamos para avançar tecnologicamente, nossa identidade digital e documentos pessoais acabam sendo usados como combustível para treinar algoritmos que, por sua vez, podem ser aplicados em múltiplos contextos, inclusive comerciais.
O estudo alerta que a prática de coletar automaticamente informações da web, sem uma análise criteriosa sobre a natureza dos dados, pode violar leis de privacidade existentes, que muitas vezes possuem brechas e não se aplicam a projetos categorizados como "acadêmicos". Na Europa e em algumas regiões dos Estados Unidos, a proteção dos dados pessoais é mais rigorosa, mas, em outras partes – inclusive no Brasil –, essa regulamentação ainda deixa muito a desejar. Em um país onde o debate sobre a privacidade digital tem ganhado cada vez mais espaço, descobrir que o seu CPF e sua selfie podem estar sendo usados para ensinar máquinas a enxergar o mundo é, no mínimo, preocupante.
Aspectos técnicos e implicações comerciais
O DataComp CommonPool, com seu acervo impressionante, já foi baixado mais de duas milhões de vezes, indicando a ampla disseminação dos modelos derivados desse banco de dados. Para Rachel Hong, doutoranda em ciência da computação pela Universidade de Washington e autora principal do estudo, esse número é um indicativo da proliferação de modelos que carregam, de maneira inadvertida, os mesmos riscos de privacidade. Em um contexto onde empresas buscam constantemente vantagem competitiva através da inteligência artificial, a utilização de dados sem o consentimento adequado dos indivíduos cai como uma bomba-relógio. Afinal, nada como ver a própria identidade comercializada sem supervisão para gerar uma discussão acalorada entre especialistas e usuários.
Além dos dados classificados como "publicamente disponíveis", a pesquisa destaca um problema ainda mais insidioso: a noção equivocada de que toda informação disponível na internet é automaticamente legítima para ser explorada. Essa abordagem, que pode parecer até prática em termos de aquisição de grandes volumes de dados, ignora o fato de que documentos sensíveis, mesmo que postados na web, podem representar riscos reais quando utilizados para treinar algoritmos de forma desregulada. O humor sutil que se pode extrair dessa situação – afinal, sua selfie de perfil em uma rede social, que você considera inofensiva, pode estar contribuindo para o aprimoramento da IA do vizinho – não diminui o alerta sério que a comunidade de tecnologia deve levar.
Os pesquisadores sugerem que é urgente uma revisão das práticas de coleta de dados para treinamento de IAs. Solicita-se uma regulamentação que garanta a proteção dos dados pessoais e o direito à privacidade, especialmente em um cenário no qual as informações circulam de forma tão rápida e indiscriminada na internet. Enquanto muitos defendem a liberdade de informação e o acesso aberto a dados, especialistas ressaltam que nem tudo que é capturado automaticamente deve ser utilizado indiscriminadamente, principalmente quando envolve documentos e imagens que podem comprometer a integridade e a segurança dos indivíduos.
Perspectivas futuras e desafios regulatórios
O debate sobre o uso de dados abertos para treinar inteligência artificial tem ganhado força em diversos países. Na Europa, por exemplo, a implementação do Regulamento Geral de Proteção de Dados (GDPR) é um ponto de referência para a proteção de informações pessoais. Nos Estados Unidos, apesar de algumas leis estaduais já protegerem certas categorias de dados, ainda falta uma legislação federal robusta que unifique essas normativas. No Brasil, a Lei Geral de Proteção de Dados (LGPD) está em vigor, mas a aplicação da lei em relação aos dados coletados automaticamente e classificados como "publicamente disponíveis" ainda gera muitas controvérsias e lacunas jurídicas.
A situação descrita pelo estudo do DataComp CommonPool serve como um alerta para pesquisadores, desenvolvedores e empresas que utilizam inteligência artificial. A promessa de uma tecnologia avançada sempre vem acompanhada de grandes responsabilidades, e a coleta desregrada de informações pessoais exemplifica como o avanço técnico pode, inadvertidamente, colocar em risco a privacidade dos usuários. Enquanto o debate regulatório não acompanha a velocidade das inovações tecnológicas, o risco de violações permanece presente e pode afetar milhões de pessoas.
Em resumo, a pesquisa publicada pelo Olhar Digital convida à reflexão sobre os métodos de coleta e uso dos dados que alimentam as inteligências artificiais. É preciso repensar a ideia de "informação pública" e estabelecer limites claros para o uso de dados pessoais, garantindo que, no futuro, a tecnologia trabalhe a favor dos indivíduos e não contra eles. Afinal, a modernidade digital exige cuidados que vão além da simples inovação; exige a construção de um ecossistema seguro e ético, onde cada informação utilizada em algoritmos seja fruto de um consentimento consciente.
Para o público brasileiro, que vem enfrentando desafios constantes relacionados à proteção de dados e à segurança cibernética, esta notícia é mais do que um alerta; é um convite à ação para repensar como informações aparentemente inofensivas podem, de fato, resultar em sérias implicações. Seja para empresas que buscam inovar ou para usuários que desejam preservar sua privacidade, o caso do DataComp CommonPool ressalta a importância de um debate contínuo e a necessidade urgente por regulamentações precisas no campo da inteligência artificial.