Samsung apresenta o TRUEBench para testar a produtividade da IA em cenários reais de trabalho

Galaxy IA (Fonte da imagem: Antony Muchiri)

A Samsung lançou o TRUEBench, um novo benchmark projetado para medir a capacidade dos sistemas de IA de lidar com tarefas reais no local de trabalho, em vez de testes acadêmicos restritos. Cobrindo 2.485 cenários em dez categorias e doze idiomas, ele avalia tudo, desde avisos rápidos até o processamento de documentos longos. A pontuação é rigorosa, exigindo que os modelos atendam a todas as condições, o que torna os resultados exigentes, porém mais realistas.

Antony Muchiri (traduzido por Ninh Duy), Publicado 09/26/2025 🇺🇸 🇩🇪 ...

Samsung AI Launch

IA há muito tempo, os benchmarks de IA têm se esforçado para capturar o que as pessoas realmente fazem com esses sistemas. A maioria dos testes ainda se concentra em tarefas de perguntas e respostas somente em inglês, que parecem bem organizadas no papel, mas não refletem a variedade de atividades das quais o senhor depende no trabalho diário. A Samsung acaba de lançar o https://news.samsung.com/global/samsung-introduces-truebench-a-benchmark-for-real-world-ai-productivityTRUEBench, abreviação de Trustworthy Real-world Usage Evaluation Benchmark, para medir o desempenho da IA de forma mais próxima das tarefas reais de escritório.

O TRUEBench vai além de simples trivialidades ou trocas de mensagens únicas para executar modelos por meio de resumo de documentos, tradução em doze idiomas, análise de dados e instruções de várias etapas que exigem que a IA mantenha o contexto. A Samsung desenvolveu 2.485 conjuntos de testes em dez categorias e 46 subcategorias, com entradas que variam de um punhado de caracteres a mais de vinte mil. O objetivo é simular tudo, desde comandos rápidos até longos relatórios comerciais.

Paul (Kyungwhoon) Cheun, CTO da Divisão DX da Samsung Electronics e Diretor da Samsung Research, disse: "A Samsung Research traz um profundo conhecimento e uma vantagem competitiva por meio de sua experiência em IA no mundo real. Esperamos que o TRUEBench estabeleça padrões de avaliação de produtividade e solidifique a liderança tecnológica da Samsung"

Ferramenta de IA TRUEBench da Samsung (Fonte da imagem: Samsung Newsroom)

Para que um modelo seja aprovado, ele deve atender a todas as condições exigidas em um teste, inclusive as implícitas que refletem o que uma pessoa razoável esperaria, mesmo que essas condições não estejam explicitadas. Esse método "tudo ou nada" torna os resultados menos tolerantes, mas também os aproxima da maneira como o senhor decidiria se um resultado é realmente útil. A Samsung criou as regras combinando informações humanas com verificações de IA. Os anotadores humanos redigiram as condições iniciais, a IA sinalizou contradições ou inconsistências e os humanos refinaram a estrutura novamente antes de fixá-la. Uma vez finalizada, a avaliação poderia então ser executada em escala por meio de pontuação automatizada de IA.

A Samsung também tornou públicos o conjunto de dados, as tabelas de classificação e as estatísticas de resultados por meio do Hugging Face. O senhor pode comparar diretamente até cinco modelos e ver como seus resultados se comparam. Esse nível de transparência permite que desenvolvedores, pesquisadores e usuários examinem o benchmark em vez de simplesmente confiar nas afirmações da Samsung.

No entanto, o benchmark não é perfeito, pois a definição de regras sempre conterá algum grau de parcialidade, e a exigência de sucesso total em todas as condições significa que respostas parciais, mas ainda úteis, são pontuadas como falhas. O suporte a idiomas vai além da maioria dos testes existentes, mas o desempenho será inevitavelmente diferente, principalmente nos idiomas em que os dados de treinamento são escassos. O conjunto de testes também se inclina para tarefas comerciais gerais, de modo que domínios altamente especializados, como direito, medicina ou pesquisa científica, podem não estar totalmente representados.

Fonte(s)

Sala de Imprensa da Samsung

Fonte(s)

Artigos Relacionados