Source : https://arxiv.org/html/2505.04146v1
Ce texte est une présentation de l’article de recherche intitulé “Unmasking the Canvas: A Dynamic Benchmark for Image Generation Jailbreaking and LLM Content Safety”. L’article, soumis sur arXiv, aborde la vulnérabilité des grands modèles de langage (LLM) dans la génération d’images face aux attaques par injection de prompt, ou “jailbreaking”. Les auteurs, Variath Madhupal Gautham Nair et Vishal Varma Dantuluri, décrivent un nouvel ensemble de données, le UTC Benchmark (UTCB), conçu pour évaluer cette vulnérabilité. Ils expliquent leur méthodologie utilisant l’ingénierie de prompt, l’obfuscation multilingue et une pipeline d’évaluation robuste pour identifier et classer les risques associés aux images générées. Le texte met également en garde le lecteur que l’article contient des exemples visuels de ces inputs adversariaux, bien que les sorties générées soient expurgées pour une divulgation responsable.