A guerra da IA: A Microsoft revela o Phi-3, um modelo de IA capaz que cabe facilmente em um telefone

Pequena, mas poderosa? (Fonte: DALL-E)

Em resposta ao recente lançamento do Llama-3 da Meta, a Microsoft publicou descobertas sobre a última iteração de seu modelo de IA leve. O relatório técnico mostra que o Phi-3-mini supera o desempenho de LLMs como o GPT-3.5, apesar de ter uma fração de seu tamanho.

Sarfo Ashong-Listowell (traduzido por Ninh Duy), Publicado 04/26/2024 🇺🇸 🇮🇹 ...

A Microsoft lançou o Phi-3 no início desta semana no HuggingFace, Ollama e no catálogo do Azure AI. Embora ele não corresponda exatamente às habilidades de conhecimento geral do Windows Copilota tecnologia de IA de código aberto representa a quarta geração de pequenos modelos de linguagem de Redmond que rivalizam com os LLMs convencionais em termos de velocidade, eficiência e desempenho.

Com 3,8 bilhões de parâmetros, o Phi-3 é um pouco maior do que o seu antecessor mas continua pequeno o suficiente para ser executado em apenas 1,8 GB de armazenamento móvel. Para efeito de comparação, um LLM complexo típico, como o Llama ou o GPT-3.5, utiliza centenas de bilhões de parâmetros para compreender a entrada e é impraticável armazenar nativamente. GPT-5, que será lançado neste verãoespera-se que tenha um tamanho de trilhões de parâmetros. Pelas leis de escalonamento convencionais, mais parâmetros significam resultados mais inteligentes. Mas, de acordo com a Microsoft, esse pode não ser necessariamente o caso.

Gráfico comparando os modelos Phi-3 com Llama-3, Gemma e Mixtral (Fonte: Microsoft)

A Microsoft faz algumas afirmações ousadas em seu relatório técnico https://arxiv.org/pdf/2404.14219sendo a principal delas os benchmarks de desempenho que, segundo a própria empresa, são puramente acadêmicos. Em 12 dos 19 testes de benchmark, o Phi-3-mini parece superar o Llama-3-instruct, apesar de ser executado com mais do que o dobro de parâmetros. Com o Phi-3-small de 7B e o Phi-3-medium de 14B, os resultados foram ainda mais surpreendentes.

Os engenheiros atribuem esses ganhos de eficiência ao seu conjunto de dados de treinamento cuidadosamente selecionado cuidadosamente selecionado, derivado de duas fontes: conteúdo da Web com "qualidade de livro-texto" e dados gerados por IA projetados para ensinar linguagem, conhecimento geral e raciocínio de senso comum com uma lista selecionada de 3.000 palavras que servem como blocos de construção. Os pesquisadores da Microsoft afirmam que esse tipo de receita de dados permitiu que o Phi-2 do ano passado igualasse o desempenho do modelo Llama-2 da Meta, consideravelmente maior (70 B) Modelo Llama-2 da Meta.

Comparação do benchmark Phi-3 com os principais LLMs. (Fonte: Azure)

Eric Boyd, vice-presidente corporativo do Azure AI, se vangloria através do The Verge de que o Phi-3 é tão capaz quanto o GPT-3.5, embora em um "fator de forma menor". No entanto, o Phi-3 continua a ser afetado por uma deficiência no conhecimento factual devido ao seu tamanho limitado. Será que essa é uma compensação necessária para que a IA seja executada nativamente em vez de por meio da computação em nuvem?

Considerando que a flexibilidade e o custo-benefício são questões fundamentais para as empresas, não é de surpreender que as empresas já tenham começado a aproveitar os recursos dos SLMs. No entanto, o Phi-3 tem uma concorrência acirrada. O Meta's Llama-3da Anthropic, Claude-3 suitedo Google Gemini e Gemma todos têm versões leves que são capazes de suportar a computação de ponta em dispositivos móveis. E embora o Phi-3 pareça competir favoravelmente, o Gemini Nano já chegou a dispositivos como o Google Pixel 8 Pro e o Samsung Galaxy S24 series(US$ 784 na Amazon).

A família Phi-3 de modelos de IA não é, de forma alguma, o único SLM em que a Microsoft está trabalhando. No mês passado, a empresa adaptou o Mistral para criar o Orca-Mathum modelo especializado que demonstrou ser consideravelmente mais preciso do que o Llama, o GPT-3.5 e o Gemini Pro em matemática do ensino fundamental. AutoDevum projeto mais recente, baseia-se no AutoGen e no Auto-GPT para planejar e executar autonomamente tarefas de programação com base em objetivos definidos pelo usuário. A guerra da IA está longe de terminar, mas, pelo menos na escala mais baixa, temos um concorrente de peso.

O Orca-Math atinge uma taxa de aprovação de 86,8% nos problemas do GSM8K, superando todos os outros modelos testados. (Fonte da imagem: Microsoft)

Visão geral da estrutura do AutoDev (Fonte da imagem: Microsoft Research)

Fonte(s)

Azure, Blog da Microsoft

Fonte(s)

Artigos Relacionados