Os assistentes de IA são surpreendentemente hábeis em inventar informações e apresentá-las como fatos. Alegações falsas, fontes fictícias e citações fabricadas fazem parte da mistura. Esses erros são comumente chamados de alucinações. Muitos usuários provavelmente se acostumaram com o problema, muitas vezes dependendo de sua própria verificação de fatos para separar a verdade da ficção. Mas , de acordo com a OpenAIpode haver uma alternativa. Em 5 de setembro, a empresa por trás do ChatGPT divulgou um documento detalhado que oferece uma nova explicação para a ocorrência de alucinações - e uma possível solução.
A adivinhação é recompensada, a incerteza é punida
O artigo de 36 páginas do site https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdfde 36 páginas, de autoria de Adam Kalai, Santosh Vempala, da Georgia Tech, e outros pesquisadores da OpenAI, deixa claro o seguinte: as alucinações não são causadas por uma escrita desleixada, mas pela forma como as métricas de avaliação atuais são configuradas. Essas métricas tendem a recompensar palpites confiantes e penalizar expressões de incerteza. Os pesquisadores comparam isso a testes de múltipla escolha - aqueles que adivinham podem marcar pontos, enquanto aqueles que deixam as perguntas em branco não recebem nada. Estatisticamente, o modelo de adivinhação sai na frente, mesmo que frequentemente forneça informações incorretas.
Como resultado, as tabelas de classificação atuais, que classificam o desempenho da IA, concentram-se quase que exclusivamente na precisão, ignorando as taxas de erro e a incerteza. A OpenAI agora está pedindo uma mudança. Em vez de simplesmente contabilizar as respostas corretas, os painéis de avaliação devem penalizar mais fortemente os erros confiantes e, ao mesmo tempo, conceder algum crédito pela abstenção cautelosa. O objetivo é incentivar os modelos a reconhecerem a incerteza em vez de apresentarem com confiança informações falsas como fatos.
Menos adivinhação, mais honestidade
Um exemplo do artigo mostra a diferença que essa abordagem pode fazer. No benchmark SimpleQA, um modelo optou por não responder a mais da metade das perguntas, mas errou em apenas 26% das respostas que forneceu. Outro modelo respondeu a quase todas as perguntas, mas teve alucinações em cerca de 75% dos casos. A conclusão é clara: demonstrar incerteza é mais confiável do que adivinhação confiante que apenas cria a ilusão de precisão.
Fonte(s)
Os Top 10
» Os Top 10 Portáteis Multimídia
» Os Top 10 Portáteis de Jogos
» Os Top 10 Portáteis Leves para Jogos
» Os Top 10 Portáteis Acessíveis de Escritório/Empresariais
» Os Top 10 Portáteis Premium de Escritório/Empresariais
» Os Top 10 dos Portáteis Workstation
» Os Top 10 Subportáteis
» Os Top 10 Ultrabooks
» Os Top 10 Conversíveis
» Os Top 10 Tablets
» Os Top 10 Smartphones
» A melhores Telas de Portáteis Analisadas Pela Notebookcheck
» Top 10 dos portáteis abaixo dos 500 Euros da Notebookcheck
» Top 10 dos Portáteis abaixo dos 300 Euros