Essential-Web v1_0_ Données Web Organisées

Essential-Web v1_0_ Données Web Organisées

Episode description

Source : https://arxiv.org/abs/2506.14111

Ce document provient d’arXiv, une archive d’e-prints pour des prépublications de recherche. Le document, intitulé “Essential-Web v1.0: 24T tokens of organized web data,” présente un vaste ensemble de données de 24 trillions de jetons organisé à l’aide d’une taxonomie à douze catégories, annotée par un modèle d’apprentissage automatique spécialisé. Les auteurs affirment que cet ensemble de données améliore la qualité et l’accessibilité des données d’entraînement pour les modèles de langage, permettant d’obtenir des ensembles de données filtrés compétitifs dans divers domaines comme les mathématiques, le code, les STEM et la médecine. Les informations de soumission indiquent que le document a été révisé deux fois et est disponible en PDF avec un DOI associé, soulignant son statut de publication scientifique examinée par des pairs.

Audio File

Download
No chapters are available for this episode.