OpenAI em Xeque: Juíza Ordena Divulgação de Provas de Pirataria
A OpenAI, empresa por trás do popular ChatGPT, encontra-se em uma posição juridicamente desconfortável. Uma juíza distrital dos EUA determinou que a companhia deve explicar por que deletou dois enormes conjuntos de dados, conhecidos como “Books1” e “Books2”, que são centrais em um processo de violação de direitos autorais movido por autores. Segundo a ação, esses datasets, recheados de livros pirateados, foram usados para treinar seu modelo de linguagem. A tentativa da OpenAI de classificar os motivos da exclusão como sigilosos sob o privilégio advogado-cliente não foi bem-sucedida, e agora a empresa pode ter que abrir seus arquivos internos.
O Jogo de Esconde-Esconde da OpenAI
Vamos aos fatos, de forma lógica. Fato 1: Em 2021, funcionários da OpenAI criaram os datasets “Books1” e “Books2”. Fato 2: A fonte principal desses dados foi uma notória “biblioteca-sombra” chamada Library Genesis (LibGen), um conhecido repositório de conteúdo pirateado. Fato 3: A OpenAI admite que deletou esses datasets em 2022, antes do lançamento do ChatGPT. A questão central, que vale milhões, é: por quê?
A resposta da empresa tem sido, no mínimo, inconsistente. Inicialmente, a justificativa apresentada foi o “não uso” dos dados. Contudo, conforme detalhado pela reportagem da Ars Technica, quando os advogados dos autores solicitaram acesso a comunicações internas sobre esse “não uso”, a OpenAI mudou de tática. A nova posição? Todas as razões para a exclusão, incluindo o “não uso”, estariam protegidas pelo privilégio advogado-cliente. Se um argumento parece logicamente falho, é porque provavelmente é. Se a razão é factual (não uso), então ela não é um conselho legal. Se não é um conselho legal, então não pode ser protegida por privilégio. A OpenAI tentou ter as duas coisas, e a corte não aceitou.
A Juíza Wang Desbuga o Argumento
A juíza distrital dos EUA, Ona Wang, foi a responsável por dissecar a argumentação da OpenAI. Em sua decisão, ela apontou o que chamou de “vai e vem” da empresa sobre o tema. “A OpenAI não pode declarar uma ‘razão’ (o que implica que não é privilegiada) e depois afirmar que a ‘razão’ é privilegiada para evitar a descoberta [de provas]”, escreveu a juíza. O resultado dessa análise forense foi uma ordem direta: a OpenAI deve, até o dia 8 de dezembro, compartilhar todas as comunicações com advogados internos sobre a exclusão dos datasets e todas as referências internas à LibGen que foram retidas ou censuradas.
A investigação da corte foi ainda mais fundo, analisando um canal de Slack que, segundo a OpenAI, era privilegiado. O canal, inicialmente chamado de “excise-libgen” (algo como “remover-libgen”), teve seu nome alterado para “project-clear” por sugestão de um advogado da empresa, Jason Kwon. A juíza Wang observou que, na vasta maioria das mensagens, os advogados não se manifestaram para dar conselhos legais. Sua conclusão foi implacável: “A totalidade do canal do Slack e todas as mensagens contidas nele não são privilegiadas simplesmente porque foram criadas sob a direção de um advogado e/ou pelo fato de um advogado ter sido copiado nas comunicações”.
Quando a Defesa Vira Ataque (Contra Si Mesmo)
A insistência da OpenAI em ocultar suas motivações pode ter um efeito bumerangue devastador. Em casos de direitos autorais, se a violação for considerada “dolosa” – ou seja, se o réu tinha conhecimento da atividade infratora ou agiu com “indiferença imprudente” –, as multas podem saltar para até 150 mil dólares por obra infringida. Ao tentar bloquear a investigação sobre seu estado mental e suas intenções, a OpenAI pode ter, ironicamente, fortalecido a tese dos autores de que a empresa sabia que estava agindo de forma errada.
A juíza Wang também criticou duramente a OpenAI por, segundo ela, deturpar uma decisão judicial anterior envolvendo a empresa Anthropic. A OpenAI citou o caso para argumentar que agiu de boa fé, mas, nas palavras da juíza, a empresa citou a decisão de forma “bizarra” e “grosseira”, alegando que o outro juiz havia considerado legal o download de livros piratas para treinar LLMs. A verdade era o exato oposto. A juíza Wang destacou que as ações da OpenAI pareciam “se enquadrar perfeitamente na categoria de atividades proscritas” pelo outro magistrado.
O Próximo Capítulo e um Possível Acordo
Com a ordem para entregar as comunicações internas e a obrigatoriedade de disponibilizar seus advogados para depoimento até 19 de dezembro, a OpenAI está em uma posição delicada. Os autores do processo também conseguiram o direito de interrogar Dario Amodei, CEO da Anthropic, que supostamente criou os datasets enquanto ainda estava na OpenAI. Acredita-se que ele possua informações cruciais sobre a criação e destruição dos dados.
A situação espelha o que ocorreu com a Anthropic, que, diante de evidências de que abandonou o uso de livros piratas por “razões legais”, acabou fechando o maior acordo de direitos autorais já relatado publicamente. A grande questão agora é se as mensagens de Slack e os e-mails da OpenAI conterão uma “arma fumegante” semelhante. Se a resposta for sim, a gigante da IA poderá descobrir que a decisão mais lógica é seguir o caminho do acordo, antes que um júri determine o custo de suas ações.
{{ comment.name }}
{{ comment.comment }}