Gemma 4 no Hugging Face: A surpresa de Páscoa do Google para download

Gemma-4

O Google lança o Gemma 4: a nova família de modelos (E2B a 31B) traz recursos de raciocínio e multimodalidade diretamente para laptops e smartphones. Com uma enorme janela de contexto de até 256 mil tokens e licença Apache 2.0, o Google está dando um exemplo de IA local gratuita.

Marc Herter (traduzido por DeepL / Ninh Duy), Publicado 04/03/2026 🇺🇸 🇩🇪 ...

Pouco antes da Páscoa, o Google lançou uma grande surpresa no Hugging Face: o tão aguardado Gemma 4 já está disponível para download. O lançamento apresenta quatro classes de tamanho principais: E2B, E4B, 26B, A4B e 31B. Todos os modelos apresentam um modo "Thinking" integrado, permitindo que eles processem problemas complexos passo a passo antes de fornecer uma resposta final. O entusiasmo em torno do lançamento é evidente, pois o Gemma 4 tornou-se localmente utilizável em ferramentas como LM Studio e Unsloth poucas horas após seu lançamento.

De acordo com o Googleessa nova geração prioriza a eficiência em relação ao tamanho bruto. Uma melhoria notável em relação à iteração anterior do Gemma 3 é que os menores modelos da série atual já correspondem aos níveis de desempenho do maior modelo Gemma 3 em vários benchmarks. Em termos práticos, isso significa que as tarefas que antes exigiam hardware de ponta agora podem ser executadas localmente em um smartphone.

A arquitetura varia de acordo com o caso de uso pretendido. Enquanto a variante 31B utiliza uma estrutura relativamente clássica, o modelo 26B-A4B emprega uma abordagem Mixture-of-Experts (MoE). Durante a inferência - o processo de cálculo real - apenas cerca de quatro bilhões de parâmetros são ativados, apesar de o modelo possuir 26 bilhões no total. Isso garante alta velocidade e consumo moderado de recursos sem sacrificar a profundidade do conhecimento. Os modelos menores E2B e E4B utilizam Per-Layer Embeddings (PLE), que fornecem informações especializadas para cada token em cada camada do modelo, otimizando o desempenho especificamente para processadores móveis.

Também há avanços significativos na janela de contexto - a quantidade de dados que o modelo pode manter "em mente" simultaneamente. Os modelos E2B e E4B suportam 128.000 tokens, enquanto as variantes maiores (26B, A4B e 31B) podem lidar com até 256.000 tokens. Essa capacidade permite que os usuários analisem documentos enormes ou estruturas de código complexas em uma única passagem.

A multimodalidade está profundamente integrada ao Gemma 4, permitindo que os usuários misturem texto e imagens com perfeição em um único prompt. Os modelos são capazes de reconhecer objetos, ler documentos PDF e fazer o reconhecimento óptico de caracteres (OCR). Além disso, os modelos de borda (E2B e E4B) incluem processamento nativo para formatos de vídeo e áudio, permitindo recursos como o reconhecimento automático de fala.

Outro recurso poderoso é o suporte nativo para "Chamada de função" Isso permite que a IA atue como um assistente virtual, executando comandos de software de forma independente ou usando ferramentas externas para concluir tarefas. Um exemplo claro dessa tendência é a ferramenta "OpenClaw", atualmente popular na China, que se baseia nesse princípio de agentes de IA. Com o Gemma 4, a implementação de tais sistemas inteiramente em seu próprio dispositivo se torna significativamente mais fácil.

A estrutura legal também é uma mudança bem-vinda: os modelos são liberados sob a licença Apache 2.0. Isso significa que eles não são apenas de uso gratuito, mas também podem ser integrados de forma flexível em projetos proprietários e usados comercialmente, reduzindo drasticamente a barreira para os desenvolvedores. Anteriormente, todos os modelos Gemma eram lançados sob uma licença personalizada de autoria do Google.

Os testes práticos iniciais destacam os impressionantes recursos linguísticos e a maior eficiência desses modelos. Usando o LM Studio em um Bosgame M5obtivemos uma velocidade de resposta de pouco mais de 10 tokens por segundo (tok/s) com o modelo Gemma 4 31B - mais rápido do que o leitor médio pode processar informações. Os modelos menores são ainda mais ágeis: as variantes E4B e 26B A4B ultrapassam facilmente 40 tok/s, com o menor modelo chegando a 60 tok/s. No entanto, aqueles que desejam utilizar todo o tamanho do contexto do maior modelo Gemma 4 podem achar que até mesmo 128 GB de RAM (como encontrado no Bosgame M5) é pouco; a IA pode reivindicar mais de 80 GB para si mesma, deixando pouca memória disponível para outras tarefas.