Transformation de Jetons pour Accélération des Vision Transformers (v2)

Source: https://arxiv.org/abs/2506.05709v1

Ce document présente « Token Transforming », un nouveau cadre de compression de jetons conçu pour accélérer les transformeurs de vision sans nécessiter de post-entraînement. Les auteurs proposent une approche unifiée qui généralise les méthodes existantes de compression de jetons, comme la taille des jetons ou leur fusion, en les conceptualisant comme des transformations explicites de matrices de jetons. Cette méthode préserve un maximum d’informations, ce qui permet des réductions de calcul significatives (jusqu’à 40 % de FLOPs) et des accélérations de l’inférence (jusqu’à 1,5x) avec une perte de précision minimale. Le cadre est validé sur diverses tâches de vision, y compris la segmentation, la détection d’objets et l’estimation de profondeur, démontrant une amélioration constante du compromis entre calcul et performance.

Transformation de Jetons pour Accélération des Vision Transformers (v2)

Episode description

Audio File

Persons