Source: https://arxiv.org/html/2505.14226v1
Cette étude évalue la vulnérabilité des grands modèles linguistiques (LLM), y compris les modèles multimodaux, aux attaques de contournement qui utilisent des requêtes en langue mixte (code-mixing) avec des perturbations phonétiques intentionnelles, notamment en Hinglish (un mélange d’hindi et d’anglais). Les auteurs introduisent de nouvelles stratégies de contournement telles que “Sandbox” et “VisGPT” et démontrent leur efficacité à contourner les filtres de sécurité pour les tâches de génération de texte et d’images. L’analyse révèle que la tokenization des mots sensibles est affectée par les perturbations phonétiques, permettant aux modèles de générer des contenus nuisibles. Les conclusions soulignent le besoin urgent d’améliorer l’alignement de sécurité multilingue et multimodal dans les LLM.