Source: https://arxiv.org/abs/2506.21552
Le document arXiv:2506.21552 présente une recherche innovante dans le domaine de la vision par ordinateur et de l’intelligence artificielle. Il décrit un modèle capable de prédire des vidéos égocentriques en se basant sur les mouvements du corps humain, représentés par des données de pose 3D. L’étude utilise un grand ensemble de données appelé Nymeria, qui combine des vidéos du point de vue humain et des captures de la pose corporelle. L’objectif est de simuler la manière dont les actions physiques humaines façonnent l’environnement, offrant une approche initiale pour modéliser des environnements complexes et des comportements d’agents incorporés à partir d’une perspective humaine. Ce travail est soutenu par la Simons Foundation et est disponible pour consultation via divers outils bibliographiques et plateformes de code.