Ferramenta de código aberto mede o nível de estupidez dos modelos de IA

Os modelos de IA não são estáveis para codificação de vibração (Fonte da imagem: Gerado usando OpenAI)

Uma nova ferramenta de código aberto está oferecendo monitoramento em tempo real de vários modelos de IA, incluindo OpenAI GPT-5, Claude Opus 4 e Gemini 2.5 Pro. A primeira do gênero, ela pode detectar "quando as empresas de IA reduzem a capacidade do modelo para economizar custos" Os benchmarks também podem ser executados em relação às chaves de API do OpenAI, xAI, Anthropic ou Google dos próprios usuários.

Codrut Nistor (traduzido por Ninh Duy), Publicado 09/18/2025 🇺🇸 🇪🇸 ...

Aqueles que trabalharam com modelos de IA para várias tarefas, especialmente codificação, perceberam que as ferramentas de software se comportam de forma inconsistente. Em alguns casos, elas simplesmente não fornecem nenhuma resposta; às vezes, entregam códigos errados e, quando apresentam o que era esperado, o fazem mais lentamente do que o normal. É nesse ponto que a AI Benchmark Tool, localizada em AistupidLevel.infofornece informações em tempo real sobre o desempenho e a precisão de vários modelos de IA, inclusive dados de custo.

A ferramenta de código aberto mencionada acima executa mais de 140 tarefas de codificação, depuração e otimização em todos os modelos grandes. Por enquanto, ela rastreia os seguintes: OpenAI GPT, Claude e Gemini. O Grok também será adicionado em breve. Seus destaques incluem o seguinte:

Informações de preço em tempo real, já que alguns modelos que parecem baratos precisam de 10 iterações para realizar um trabalho, enquanto outros que parecem mais caros à primeira vista realizarão a mesma tarefa em 2 iterações, portanto, por um custo efetivo menor.
A capacidade de executar os mesmos testes com suas próprias chaves de API.
Monitoramento do desempenho da IA em tempo real, incluindo classificações de modelos ao vivo com base em estupidez e inteligência.
Recomendações inteligentes, com base no desempenho combinado.
Notificação de degradações ativas - por exemplo, o Gemini-2.5-Flash está agora 44% abaixo em comparação com o valor de linha de base.

Atualmente, as recomendações inteligentes são as seguintes: Gemini-2.5-Flash-Lite para código, Claude-3.5-Sonnet-20241022 para confiabilidade e Gemini-2.5-Flash-Lite para velocidade. Tudo é de código aberto no GitHub (Repo API, Repo Front End), e qualquer pessoa pode contribuir. Todos os detalhes e a própria ferramenta podem ser encontrados no site oficial, que foi mencionado no primeiro parágrafo.