

Source: https://arxiv.org/html/2505.14534v1
Ce rapport de Google DeepMind explore l’évaluation et le renforcement de la robustesse des modèles Gemini face aux attaques par injection de prompt indirect. Ces attaques exploitent la capacité de Gemini à utiliser des outils et à accéder à des données externes, permettant à des acteurs malveillants d’insérer des instructions cachées dans des données non fiables. Les chercheurs détaillent leur cadre d’évaluation adaptatif, qui utilise des techniques d’attaque automatisées pour tester en continu la résilience des modèles. Ils discutent de différentes défenses, y compris des méthodes intégrées au modèle (comme l’entraînement contradictoire) et des défenses externes (comme la classification ou la paraphrase), soulignant la nécessité d’une approche en profondeur. Les résultats montrent que l’entraînement contradictoire améliore la robustesse de Gemini 2.5 sans compromettre ses capacités générales, mais qu’une combinaison de défenses à plusieurs niveaux est essentielle pour une protection complète.