Notebookcheck Logo

Yandex lança o conjunto de dados de recomendação de música de código aberto Yambda

O conjunto de dados gratuito Yandex Yambda permite que qualquer pessoa crie seu próprio serviço de recomendação de músicas. (Fonte da imagem: Yandex)
O conjunto de dados gratuito Yandex Yambda permite que qualquer pessoa crie seu próprio serviço de recomendação de músicas. (Fonte da imagem: Yandex)
A Yandex lançou o Yambda, o maior conjunto de dados aberto do mundo para sistemas de recomendação de música, contendo 4,79 bilhões de interações anônimas de usuários para ajudar os desenvolvedores a criar serviços de música inteligentes que tocam apenas as músicas que os ouvintes querem ouvir.

A Yandex lançou seu conjunto de dados Yambda de código aberto contendo informações sobre as preferências dos ouvintes de música para uso na criação de um serviço de streaming de áudio semelhante ao Spotify com personalização de listas de reprodução com tecnologia de IA.

Serviços de streaming como Spotify, Tidal e Qobuz usam algoritmos de software ou modelos de IA para criar listas de reprodução com base em preferências individuais. Em geral, esses serviços não divulgam seus códigos ou modelos porque sua capacidade exclusiva de reproduzir automaticamente as músicas que os ouvintes gostam é considerada um segredo comercial para seu sucesso.

A Yandex coletou dados durante dez meses na forma de 4,79 bilhões de interações de usuários com 9,39 milhões de faixas de música de seu grupo de 28 milhões de usuários mensais do Yandex Music usuários mensais. Isso inclui o principal feedback dos ouvintes do Yandex Music - o que eles escolhem para ouvir, bem como seus gostos e desgostos. Todas as interações têm registro de data e hora para maior precisão.

O conjunto de dados pode ser baixado nos tamanhos de modelo de evento de cinco bilhões (1 milhão de usuários), quinhentos milhões (100.000 usuários) e cinquenta milhões (10.000 usuários), com o máximo exigindo pelo menos 85 GB de espaço de armazenamento. O conjunto de dados é armazenado no formato Apache Parquet um formato de arquivo de dados orientado por colunas para análise e pesquisa convenientes.

Os leitores podem dar o presente de streaming de música com um cartão-presente do Spotify.

Please share our article, every link counts!
Mail Logo
> Análises e revisões de portáteis e celulares > Arquivo de notícias 2025 05 > Yandex lança o conjunto de dados de recomendação de música de código aberto Yambda
David Chien, 2025-05-30 (Update: 2025-05-30)