Batalha de IA: Grok surpreende Mrwhosetheboss com seu desempenho e ChatGPT vence

Gemini, ChatGPT, Grok e Perplexity (Fonte da imagem: Gemini)

Em um vídeo publicado por Mrwhosetheboss no YouTube, ele testou quatro modelos de IA de diferentes marcas e os classificou com base no desempenho em cada tarefa. O senhor passou de consultas simples a perguntas e pesquisas complicadas, levando cada modelo ao seu limite.

Chibuike Okpara (traduzido por Ninh Duy), Publicado 07/04/2025 🇺🇸 🇩🇪 ...

No vídeo, Mrwhosetheboss testou o Grok (Grok 3), o Gemini (2.5 Pro), o ChatGPT (GPT-4o) e o Perplexity (Sonar Pro). Durante o vídeo, ele deixou claro que estava impressionado com o desempenho do Grok. A Grok começou muito bem, afrouxou um pouco e depois voltou para conquistar a segunda posição, atrás da ChatGPT. Para ser justo, o ChatGPT e o Gemini tiveram sua pontuação aumentada, graças a um recurso que os outros simplesmente não têm - a geração de vídeo.

Para iniciar o teste, o senhor testou as capacidades de solução de problemas do mundo real dos modelos e deu a cada modelo de IA o seguinte comando: Eu dirijo um Honda Civic 2017, quantas malas Aerolite 29" Hard Shell (79x58x31cm) eu conseguiria colocar no porta-malas? A resposta de Grok foi a mais direta, pois respondeu corretamente "2", ChatGPT e Gemini afirmaram que teoricamente caberiam 3, mas praticamente 2. Perplexity saiu dos trilhos e fez uma matemática simples, esquecendo que o objeto em questão não era disforme, e chegou a "3 ou 4"

Para a próxima pergunta, o senhor não foi fácil com os chatbots - ele pediu conselhos sobre como fazer um bolo. Junto com a pergunta, ele carregou uma imagem mostrando 5 itens, um dos quais não é usado para fazer bolos - um pote de cogumelos Porcini secos - todos os modelos, exceto um, caíram na armadilha. O ChatGPT identificou-o como um pote de tempero misto moído, o Gemini disse que era um pote de cebolas fritas crocantes, o Perplexity batizou-o de café instantâneo, enquanto o Grok identificou-o corretamente como um pote de cogumelos secos da Waitrose. Aqui está a imagem que ele carregou:

Uma imagem alterada dos 5 ingredientes que o Sr. Whosetheboss enviou para os chatbots de IA, destacando o pote de cogumelos (Fonte da imagem: Sr. Whosetheboss; cortado)

Em seguida, ele os testou em matemática, recomendação de produtos, contabilidade, tradução de idiomas, raciocínio lógico, etc. Uma coisa foi universal para eles - alucinação - cada um dos modelos exibiu algum nível de alucinação em algum(ns) ponto(s) do vídeo; falando sobre coisas que simplesmente não existiam com confiança. Veja como cada IA foi classificada no final:

ChatGPT (29 pontos)
Grok (24 pontos)
Gemini (22 pontos)
Perplexity (19 pontos)

A inteligência artificial ajudou a tornar a maioria das tarefas menos pesadas, especialmente desde a chegada dos LLMs. O livro Artificial Intelligence (atualmente por US$ 19,88 na Amazon) é um dos livros que procuram ajudar as pessoas a tirar proveito da IA.