A OpenAI lança três novos modelos de API de áudio em tempo real, incluindo o GPT-Realtime-2

O GPT-Realtime-2 da OpenAI traz o raciocínio de classe GPT-5 para agentes de voz ao vivo, sendo lançado juntamente com dois modelos adicionais de áudio em tempo real por meio da API da OpenAI.

A OpenAI lançou o GPT-Realtime-2, o GPT-Realtime-Translate e o GPT-Realtime-Whisper por meio de sua API Realtime, agora disponível para agentes de voz de produção.

Darryl Linington (traduzido por DeepL / Ninh Duy), Publicado 05/09/2026 🇺🇸 🇩🇪 ...

AI Business Software Laptop / Notebook Desktop Android Apple

A OpenAI lançou três novos modelos de áudio em tempo real por meio de sua API, levando a IA de voz das interações básicas de perguntas e respostas para agentes que podem ouvir, raciocinar, traduzir e agir em uma única conversa ao vivo. O lançamento também marca a saída da API Realtime da versão beta, tornando-a disponível para uso em produção pela primeira vez.

No centro do lançamento está o GPT-Realtime-2, o primeiro modelo de voz da OpenAI desenvolvido com base no raciocínio de classe GPT-5. Ao contrário da arquitetura passo a passo da qual a maioria dos sistemas de voz depende, o GPT-Realtime-2 processa o áudio em um fluxo contínuo, permitindo que ele interprete a fala à medida que ela acontece e responda sem a lacuna causada por estágios separados de transcrição e síntese. O modelo é compatível com uma janela de contexto de token de 128K, em vez dos 32K da versão anterior, o que torna práticas as sessões de voz mais longas e os fluxos agênticos complexos de várias etapas sem a necessidade de um andaime de memória externa.

O que o GPT-Realtime-2 pode fazer

O modelo foi criado especificamente para o que a OpenAI chama de "comportamento agêntico" durante as chamadas de voz. Os preâmbulos permitem que ele diga "Deixe-me verificar isso" ou "Um momento" enquanto executa as chamadas de ferramentas, para que os usuários não fiquem no ar. As chamadas de ferramentas paralelas permitem que ele execute várias solicitações de back-end simultaneamente e informe qual delas está em andamento. Um comportamento de recuperação mais forte significa que ele lida com falhas em voz alta em vez de congelar no meio da conversa. O ajuste de tom permite que ele alterne entre estilos com base no contexto: mais comedido para chamadas de suporte e mais otimista para confirmações.

O GPT-Realtime-2 tem uma pontuação 15,2% maior do que o GPT-Realtime-1.5 no Big Bench Audio, o benchmark de raciocínio de áudio da OpenAI, e 13,8% maior no Audio Multichallenger para seguir instruções. Em testes reais, a Zillow relatou um aumento de 26 pontos na taxa de sucesso de chamadas em seu benchmark adversário mais difícil, passando de 69% para 95% após a otimização imediata no GPT-Realtime-2. O preço do modelo é de US$ 32 por milhão de tokens de entrada de áudio e US$ 64 por milhão de tokens de saída de áudio, com US$ 0,40 por milhão de tokens de entrada em cache.

GPT-Realtime-Translate e GPT-Realtime-Whisper

O segundo modelo, GPT-Realtime-Translateé um sistema dedicado de tradução de fala ao vivo. Ele processa a entrada de voz continuamente e produz traduções em tempo real sem exigir que os falantes façam pausas ou terminem frases completas. O modelo é compatível com mais de 70 idiomas de entrada e 13 idiomas de saída, visando ambientes de suporte ao cliente, educação, eventos ao vivo e vendas internacionais. A BolnaAI, uma empresa de IA de voz que está construindo para os mercados de idiomas indianos, relata taxas de erro de palavras 12,5% menores em hindi, tâmil e telugu em comparação com a abordagem de tradução anterior. O preço do GPT-Realtime-Translate é de US$ 0,034 por minuto de processamento de áudio.

O GPT-Realtime-Whisper é o terceiro modelo, estendendo a tecnologia de reconhecimento de fala Whisper, amplamente adotada pela OpenAI, para um sistema de streaming. Enquanto o Whisper original foi criado para transcrição pós-gravação, essa versão produz legendas ao vivo à medida que a fala está sendo pronunciada. Os casos de uso incluem reuniões ao vivo, documentação de tribunais, transcrição de redações e ferramentas de acessibilidade para usuários com deficiência auditiva. É o mais econômico dos três modelos, custando US$ 0,017 por minuto. Todos os três modelos já estão disponíveis por meio da API OpenAI e do playground para desenvolvedores.

O lançamento também adiciona suporte ao servidor MCP, recursos de entrada de imagem e integração de chamadas telefônicas SIP à API Realtime, ampliando a gama de fluxos de trabalho de telefonia corporativa e agêntica que os desenvolvedores podem criar sem sair da API.

O espaço da ferramenta de IA também atraiu invasores que buscam explorar o interesse em novos produtos. O Notebookcheck informou ontem sobre um site falso da Claude AI que estava divulgando o backdoor do Beagle Windows por meio de resultados de pesquisa patrocinados pelo Google usando um instalador trojanizado do Claude-Pro Relay.