Failles des LLM en Hinglish perturbé

Source: https://arxiv.org/html/2505.14226v1

Cette étude évalue la vulnérabilité des grands modèles linguistiques (LLM), y compris les modèles multimodaux, aux attaques de contournement qui utilisent des requêtes en langue mixte (code-mixing) avec des perturbations phonétiques intentionnelles, notamment en Hinglish (un mélange d’hindi et d’anglais). Les auteurs introduisent de nouvelles stratégies de contournement telles que “Sandbox” et “VisGPT” et démontrent leur efficacité à contourner les filtres de sécurité pour les tâches de génération de texte et d’images. L’analyse révèle que la tokenization des mots sensibles est affectée par les perturbations phonétiques, permettant aux modèles de générer des contenus nuisibles. Les conclusions soulignent le besoin urgent d’améliorer l’alignement de sécurité multilingue et multimodal dans les LLM.

Failles des LLM en Hinglish perturbé

Episode description

Audio File

Persons