Pesquisadores dobram as velocidades de treinamento de IA ao domar as ineficiências de cauda longa na utilização do processador

Uma imagem decorativa mostrando um chip com o acrônimo "AI" escrito nele

Um novo sistema aproveita a capacidade de computação ociosa para treinar um modelo de rascunho menor em tempo real, acelerando drasticamente o aprendizado de reforço para modelos de linguagem grandes e complexos sem sacrificar a precisão.

Chibuike Okpara (traduzido por DeepL / Ninh Duy), Publicado 02/28/2026 🇺🇸 🇪🇸 ...

AI Science

O desenvolvimento de modelos de linguagem de grande porte com capacidade de raciocínio, capazes de programação avançada e planejamento em várias etapas, requer recursos computacionais maciços. Durante o processo padrão de aprendizagem por reforço, os modelos geram várias respostas possíveis para aprender a melhor resposta. Essa fase de geração, conhecida como rollout, pode consumir até 85% do tempo total de execução. Ela cria um gargalo crítico caracterizado por uma distribuição de cauda longa, em que os processadores que terminam respostas mais curtas ficam ociosos enquanto esperam que outros concluam consultas mais longas.

Para eliminar esse tempo de inatividade desperdiçado, pesquisadores do Massachusetts Institute of Technology, juntamente com colaboradores acadêmicos e do setor, desenvolveram um sistema chamado "Taming the Long Tail" (TLT). A abordagem usa um modelo de drafter adaptável que é treinado continuamente em processadores ociosos. Esse modelo leve adivinha rapidamente as saídas futuras do modelo de destino maior, que verifica todas as suposições simultaneamente por meio de uma técnica chamada decodificação especulativa.

Enquanto a decodificação especulativa tradicional depende de um drafter estático que se torna rapidamente obsoleto durante as atualizações contínuas do treinamento, o sistema TLT realinha continuamente o drafter durante o treinamento sem nenhum custo computacional adicional. Um mecanismo de implementação adaptável integrado otimiza ainda mais o processo, mantendo um pool eficiente de memória de gráficos pré-capturados e selecionando dinamicamente a melhor estratégia de decodificação para cada novo lote de entrada.

As avaliações de vários modelos de raciocínio demonstram que essa solução sem perdas acelera as velocidades de treinamento de ponta a ponta em 70 a 110% em comparação com os sistemas mais modernos. Ao preservar os níveis de precisão originais e produzir um modelo de rascunho de alta qualidade como um subproduto de implementação gratuita, esse método oferece um caminho altamente eficiente para reduzir os encargos financeiros e de energia do desenvolvimento de arquiteturas avançadas de inteligência artificial.