A Tencent revela quatro modelos compactos de Hunyuan de código aberto com parâmetros de 0,5B, 1,8B, 4B e 7B

A Tencent abriu o código de seu modelo de IA Hunyuan, lançando quatro modelos compactos de linguagem de código aberto (Fonte da imagem: Tencent)

A Tencent abriu o código-fonte de seu modelo de IA Hunyuan, lançando quatro modelos de linguagem compactos com 0,5 bilhão, 1,8 bilhão, 4 bilhões e 7 bilhões de parâmetros que podem ser executados em uma única GPU de consumidor.

Nathan Ali (traduzido por Ninh Duy), Publicado 08/04/2025 🇺🇸 🇪🇸 ...

AI Open Source Chinese Tech

A Tencent lançou https://news.mydrivers.com/1/1066/1066161.htm um novo conjunto de modelos compactos da Hunyuan: 0.5 bilhões, 1,8 bilhão, 4 bilhões e 7 bilhões de parâmetros; eles são voltados para implementações de baixo consumo de energia e de borda. Todas as quatro configurações estão agora disponíveis no GitHub e no Hugging Face, e cada uma delas pode executar inferência em uma única placa gráfica de nível de consumidor, tornando-as adequadas para laptops, smartphones, sistemas de cabine inteligente e outros hardwares com recursos limitados.

Apesar de seus tamanhos reduzidos, os modelos alcançam pontuações de destaque em compreensão de linguagem, matemática e raciocínio em vários benchmarks públicos. A Tencent atribui esses resultados a uma arquitetura de "raciocínio de fusão" que permite que os usuários selecionem entre um modo de raciocínio rápido para respostas concisas e um modo de raciocínio lento para raciocínios mais elaborados em várias etapas.

Um recurso técnico importante é a janela de contexto de token nativa de 256K, que é suficiente para ingerir cerca de 500.000 palavras em inglês em uma única passagem. A Tencent destaca aplicativos internos, como o Tencent Meeting e o WeChat Reading, em que os modelos podem analisar uma transcrição de reunião inteira ou um livro completo de uma só vez, mantendo as relações entre os personagens e os detalhes do enredo para consultas posteriores.

Os quatro LLMs compactos se integram às principais estruturas de inferência, incluindo SGLang, vLLM e TensorRT-LLM, e oferecem suporte a vários formatos de quantização. Os endossos iniciais da Arm, Qualcomm, Intel e MediaTek indicam pacotes de implantação futuros otimizados para seus respectivos processadores clientes.

Os primeiros casos de uso ressaltam o foco prático do lançamento. O Tencent Mobile Manager relata interceptação de spam em nível de milissegundos sem transferência de dados para fora do dispositivo. Ao mesmo tempo, um esquema de modelo duplo no assistente de cabine inteligente da Tencent equilibra o consumo de energia a bordo com a profundidade da conversa. Esses exemplos, argumenta a Tencent, demonstram que modelos pequenos podem oferecer recursos de agente de nível empresarial quando projetados cuidadosamente.