IA há muito tempo, os benchmarks de IA têm se esforçado para capturar o que as pessoas realmente fazem com esses sistemas. A maioria dos testes ainda se concentra em tarefas de perguntas e respostas somente em inglês, que parecem bem organizadas no papel, mas não refletem a variedade de atividades das quais o senhor depende no trabalho diário. A Samsung acaba de lançar o https://news.samsung.com/global/samsung-introduces-truebench-a-benchmark-for-real-world-ai-productivityTRUEBench, abreviação de Trustworthy Real-world Usage Evaluation Benchmark, para medir o desempenho da IA de forma mais próxima das tarefas reais de escritório.
O TRUEBench vai além de simples trivialidades ou trocas de mensagens únicas para executar modelos por meio de resumo de documentos, tradução em doze idiomas, análise de dados e instruções de várias etapas que exigem que a IA mantenha o contexto. A Samsung desenvolveu 2.485 conjuntos de testes em dez categorias e 46 subcategorias, com entradas que variam de um punhado de caracteres a mais de vinte mil. O objetivo é simular tudo, desde comandos rápidos até longos relatórios comerciais.
Paul (Kyungwhoon) Cheun, CTO da Divisão DX da Samsung Electronics e Diretor da Samsung Research, disse: "A Samsung Research traz um profundo conhecimento e uma vantagem competitiva por meio de sua experiência em IA no mundo real. Esperamos que o TRUEBench estabeleça padrões de avaliação de produtividade e solidifique a liderança tecnológica da Samsung"
Os Top 10
» Os Top 10 Portáteis Multimídia
» Os Top 10 Portáteis de Jogos
» Os Top 10 Portáteis Leves para Jogos
» Os Top 10 Portáteis Acessíveis de Escritório/Empresariais
» Os Top 10 Portáteis Premium de Escritório/Empresariais
» Os Top 10 dos Portáteis Workstation
» Os Top 10 Subportáteis
» Os Top 10 Ultrabooks
» Os Top 10 Conversíveis
» Os Top 10 Tablets
» Os Top 10 Smartphones
» A melhores Telas de Portáteis Analisadas Pela Notebookcheck
» Top 10 dos portáteis abaixo dos 500 Euros da Notebookcheck
» Top 10 dos Portáteis abaixo dos 300 Euros
Para que um modelo seja aprovado, ele deve atender a todas as condições exigidas em um teste, inclusive as implícitas que refletem o que uma pessoa razoável esperaria, mesmo que essas condições não estejam explicitadas. Esse método "tudo ou nada" torna os resultados menos tolerantes, mas também os aproxima da maneira como o senhor decidiria se um resultado é realmente útil. A Samsung criou as regras combinando informações humanas com verificações de IA. Os anotadores humanos redigiram as condições iniciais, a IA sinalizou contradições ou inconsistências e os humanos refinaram a estrutura novamente antes de fixá-la. Uma vez finalizada, a avaliação poderia então ser executada em escala por meio de pontuação automatizada de IA.
A Samsung também tornou públicos o conjunto de dados, as tabelas de classificação e as estatísticas de resultados por meio do Hugging Face. O senhor pode comparar diretamente até cinco modelos e ver como seus resultados se comparam. Esse nível de transparência permite que desenvolvedores, pesquisadores e usuários examinem o benchmark em vez de simplesmente confiar nas afirmações da Samsung.
No entanto, o benchmark não é perfeito, pois a definição de regras sempre conterá algum grau de parcialidade, e a exigência de sucesso total em todas as condições significa que respostas parciais, mas ainda úteis, são pontuadas como falhas. O suporte a idiomas vai além da maioria dos testes existentes, mas o desempenho será inevitavelmente diferente, principalmente nos idiomas em que os dados de treinamento são escassos. O conjunto de testes também se inclina para tarefas comerciais gerais, de modo que domínios altamente especializados, como direito, medicina ou pesquisa científica, podem não estar totalmente representados.