Notebookcheck Logo

Samsung apresenta o TRUEBench para testar a produtividade da IA em cenários reais de trabalho

Galaxy IA (Fonte da imagem: Antony Muchiri)
Galaxy IA (Fonte da imagem: Antony Muchiri)
A Samsung lançou o TRUEBench, um novo benchmark projetado para medir a capacidade dos sistemas de IA de lidar com tarefas reais no local de trabalho, em vez de testes acadêmicos restritos. Cobrindo 2.485 cenários em dez categorias e doze idiomas, ele avalia tudo, desde avisos rápidos até o processamento de documentos longos. A pontuação é rigorosa, exigindo que os modelos atendam a todas as condições, o que torna os resultados exigentes, porém mais realistas.

IA há muito tempo, os benchmarks de IA têm se esforçado para capturar o que as pessoas realmente fazem com esses sistemas. A maioria dos testes ainda se concentra em tarefas de perguntas e respostas somente em inglês, que parecem bem organizadas no papel, mas não refletem a variedade de atividades das quais o senhor depende no trabalho diário. A Samsung acaba de lançar o https://news.samsung.com/global/samsung-introduces-truebench-a-benchmark-for-real-world-ai-productivityTRUEBench, abreviação de Trustworthy Real-world Usage Evaluation Benchmark, para medir o desempenho da IA de forma mais próxima das tarefas reais de escritório.

O TRUEBench vai além de simples trivialidades ou trocas de mensagens únicas para executar modelos por meio de resumo de documentos, tradução em doze idiomas, análise de dados e instruções de várias etapas que exigem que a IA mantenha o contexto. A Samsung desenvolveu 2.485 conjuntos de testes em dez categorias e 46 subcategorias, com entradas que variam de um punhado de caracteres a mais de vinte mil. O objetivo é simular tudo, desde comandos rápidos até longos relatórios comerciais.

Paul (Kyungwhoon) Cheun, CTO da Divisão DX da Samsung Electronics e Diretor da Samsung Research, disse: "A Samsung Research traz um profundo conhecimento e uma vantagem competitiva por meio de sua experiência em IA no mundo real. Esperamos que o TRUEBench estabeleça padrões de avaliação de produtividade e solidifique a liderança tecnológica da Samsung"

Ferramenta de IA TRUEBench da Samsung (Fonte da imagem: Samsung Newsroom)
Ferramenta de IA TRUEBench da Samsung (Fonte da imagem: Samsung Newsroom)

Para que um modelo seja aprovado, ele deve atender a todas as condições exigidas em um teste, inclusive as implícitas que refletem o que uma pessoa razoável esperaria, mesmo que essas condições não estejam explicitadas. Esse método "tudo ou nada" torna os resultados menos tolerantes, mas também os aproxima da maneira como o senhor decidiria se um resultado é realmente útil. A Samsung criou as regras combinando informações humanas com verificações de IA. Os anotadores humanos redigiram as condições iniciais, a IA sinalizou contradições ou inconsistências e os humanos refinaram a estrutura novamente antes de fixá-la. Uma vez finalizada, a avaliação poderia então ser executada em escala por meio de pontuação automatizada de IA.

A Samsung também tornou públicos o conjunto de dados, as tabelas de classificação e as estatísticas de resultados por meio do Hugging Face. O senhor pode comparar diretamente até cinco modelos e ver como seus resultados se comparam. Esse nível de transparência permite que desenvolvedores, pesquisadores e usuários examinem o benchmark em vez de simplesmente confiar nas afirmações da Samsung.

No entanto, o benchmark não é perfeito, pois a definição de regras sempre conterá algum grau de parcialidade, e a exigência de sucesso total em todas as condições significa que respostas parciais, mas ainda úteis, são pontuadas como falhas. O suporte a idiomas vai além da maioria dos testes existentes, mas o desempenho será inevitavelmente diferente, principalmente nos idiomas em que os dados de treinamento são escassos. O conjunto de testes também se inclina para tarefas comerciais gerais, de modo que domínios altamente especializados, como direito, medicina ou pesquisa científica, podem não estar totalmente representados.

Google LogoAdd as a preferred source on Google
Mail Logo
> Análises e revisões de portáteis e celulares > Notícias > Arquivo de notícias 2025 09 > Samsung apresenta o TRUEBench para testar a produtividade da IA em cenários reais de trabalho
Antony Muchiri, 2025-09-26 (Update: 2025-09-26)