Pesquisa revoluciona a performance em Inteligência Artificial com tecnologia Nitro
Em uma apresentação recentemente divulgada, pesquisadores do Instituto Weizmann de Ciência, Intel Labs e d-Matrix detalharam uma estratégia inovadora que pode acelerar a geração de tokens em grandes modelos de linguagem (LLMs) em até 2,8 vezes, sem qualquer perda de qualidade. A nova abordagem, apresentada na International Conference on Machine Learning, vem na esteira de um esforço para reduzir os custos operacionais e facilitar a adoção de métodos mais eficientes para o processamento de IA. Segundo informações coletadas pelo The Register, os cientistas aplicaram técnicas de especulação na decodificação, permitindo que qualquer modelo de IA sirva como um "rascunho" para acelerar a execução de modelos maiores.
Essa técnica, que pode ser comparada ao sistema de sugestão de texto dos smartphones atuais, utiliza um modelo de "rascunho" para prever os próximos tokens a serem gerados pelo modelo para o qual se deseja um desempenho superior. Quando o modelo de rascunho acerta na previsão, tokens são gerados de forma mais rápida, evitando que o modelo principal os processe individualmente. Caso haja algum erro, os tokens são descartados e gerados novamente pelo modelo maior. Essa metodologia, conhecida como decodificação especulativa, mantém a integridade e a qualidade dos resultados produzidos, mesmo com ganhos expressivos de velocidade.
A novidade que chamou atenção de muitos especialistas é a implementação de novos algoritmos que, segundo os pesquisadores, eliminam a necessidade de treinamento de modelos de "rascunho" especializados. Os estudos detalhados indicam que a técnica possibilita a utilização de qualquer modelo para realizar a função de rascunho, mesmo que as vocabulários (ou dicionários) dos modelos sejam diferentes, um ponto que até então limitava a aplicação método. Uma das maneiras utilizadas foi o algoritmo Token-Level-Intersection (TLI), que trabalha comparando os vocabulários e permitindo que o modelo de rascunho só preveja tokens presentes também no vocabulário do modelo alvo.
Além do TLI, os pesquisadores desenvolveram a abordagem String-Level Exact Match (SLEM). Essa estratégia funciona como uma camada de tradução entre os tokenizadores dos modelos, convertendo a saída do modelo de rascunho em um formato que o modelo maior pode entender de forma direta. Conforme relatado pelo The Register e explicado por Nadav Timor, estudante de Ph.D. no Weizmann, essa abordagem substitui o método tradicional de verificação, utilizando uma correspondência exata de strings. Essa rigidez no processo exige uma atenção especial ao formato do texto, onde diferenças, mesmo mínimas como espaços em branco, podem comprometer a aceitação dos tokens e, consequentemente, os ganhos de desempenho.
Para contornar os desafios impostos pelas diferenças nos tokenizadores, foi incorporada uma função heurística ao algoritmo SLEM, que suaviza as discrepâncias e otimiza as taxas de aceitação dos tokens. Essa função se mostrou particularmente eficaz em tarefas que exigem um contexto extenso, como a sumarização de textos ou a depuração de códigos de programação. Os testes conduzidos demonstraram que, em determinados cenários, a velocidade de geração de tokens pode atingir um impressionante aumento de 2,8 vezes em relação ao método tradicional de decodificação autorregressiva.
Outra solução apresentada foi o algoritmo String-Level Rejection Sampling (SLRS). Essa técnica, projetada para resolver as taxas de rejeição elevadas associadas a abordagens baseadas em verificação via string, adota uma estratégia que considera as probabilidades sobre inteiros conjuntos de tokens. Embora o SLRS demonstre um potencial significativo para aumentar ainda mais as taxas de aceitação, seu uso em tempo real exige um processamento computacional mais robusto, levando os pesquisadores a explorar maneiras de redesenhar os vocabulários dos modelos para viabilizar essa abordagem.
A importância das descobertas vai além do aspecto técnico e demonstra um passo fundamental para a democratização do uso de inteligência artificial. Ao reduzir os custos operacionais e simplificar a implementação de modelos em grande escala, essa tecnologia tem potencial para beneficiar desde grandes corporações globais até startups e pesquisadores brasileiros que buscam soluções inovadoras na área de T.I. Afinal, a realidade do mercado nacional, com desafios orçamentários e a busca por eficiência, pode se beneficiar muito de métodos que otimizem o processamento de dados sem sacrificar a precisão.
Em termos práticos, um dos pontos mais destacados pelos pesquisadores é que a implementação dos algoritmos SLEM e TLI já está integrada à biblioteca Transformers da Hugging Face, uma das ferramentas mais utilizadas no desenvolvimento de LLMs atualmente. Essa integração significa que os desenvolvedores podem aproveitar os benefícios dessa tecnologia com uma modificação simples no código, reduzindo barreiras e acelerando a adoção de soluções de decodificação especulativa. Conforme pontuado por Nadav Timor, "é uma única linha de mudança para os desenvolvedores", ressaltando assim a facilidade e o baixo custo de adaptação para a nova técnica.
Com esta inovação, a equipe de pesquisa abre caminho para uma nova era no desenvolvimento de modelos de linguagem, onde a velocidade e a eficiência caminham lado a lado com a qualidade dos resultados. A pesquisa destaca não apenas possibilidades técnicas, mas também os desafios futuros na era da inteligência artificial, como a necessidade de lidar com vocabulários cada vez maiores – por exemplo, o modelo Llama 4, que conta com aproximadamente 200 mil tokens, dos quais muito poucos são efetivamente utilizados, aumentando a latência. Essa questão, que afeta o desempenho de modelos em escala, está sendo ativamente estudada pelos cientistas, que já trabalham em maneiras de reduzir o tamanho dos vocabulários sem comprometer a capacidade do modelo.
As implicações da nova técnica vão ao encontro das tendências globais no campo de IA e aprendizado de máquina, principalmente no que diz respeito à redução de custos e à melhoria do desempenho computacional. Com o uso de algoritmos capazes de aumentar a velocidade de processamento sem perda de acurácia, torna-se possível aproveitar melhor os recursos disponíveis, o que pode significar economias significativas para empresas que dependem de infraestrutura de alto desempenho para suas operações.
Para a comunidade de tecnologia e T.I. no Brasil, que há tempos enfrenta desafios relacionados a investimentos em infraestrutura de IA, tais avanços podem representar uma oportunidade de ouro para competitividade e inovação. As startups, que muitas vezes operam com orçamentos limitados, poderão utilizar essas técnicas para criar produtos mais eficientes e robustos. Por outro lado, as grandes empresas, ao incorporarem essa tecnologia, terão a possibilidade de reduzir despesas operacionais e melhorar a performance de seus serviços, o que poderá gerar uma nova onda de investimentos no setor.
Em síntese, a criação do ‘Nitro’ para IAs marca mais um passo decisivo na evolução dos algoritmos de aprendizado de máquina. A integração de métodos de especulação na decodificação, combinada com a adaptabilidade dos modelos em diferentes configurações, abre novas perspectivas para a indústria. A pesquisa, que parece ter sido conduzida de forma minuciosa e orientada para resolver problemas reais do mercado, promete não apenas acelerar processos, mas também democratizar o acesso a tecnologias de ponta na área de inteligência artificial.
À medida que novas versões e atualizações de modelos de linguagem são lançadas, é esperado que a aplicação desses algoritmos se torne cada vez mais comum, acompanhando a demanda por soluções eficientes e economicamente viáveis. A comunidade científica continua a trabalhar para aperfeiçoar essas técnicas e enfrentar os desafios relacionados ao processamento de vocabulários massivos, consolidando esse avanço como um marco na evolução da tecnologia de IA.