Redteamsfr podcast

Redteamsfr podcast@redteamsfr

0 followers
Follow

2025 episodes (39)

Évaluation des Modèles LLM avec RAG

Évaluation des Modèles LLM avec RAG

Source: https://arxiv.org/html/2411.06037v3 Ce texte examine la performance des modèles de langage, notamment Mistral 3 7B, dans les tâches de réponse aux questions, en particulier en utilisant la technique de Génération Augmentée par Récupération (RAG). Il compare différentes approches, incluant des modèles de base, le RAG standard et le réglage fin (fine-tuning) de Mistral avec des stratégies pour encourager l’abstention lors de l’insuffisance de contexte. L’étude analyse la proportion de réponses correctes, d’abstentions et d’hallucinations sur des ensembles de données comme HotPotQA et Musique-Ans. Elle détaille également les méthodologies de fine-tuning, les ensembles de données utilisés et les différentes méthodes d’évaluation, comme un évaluateur basé sur un LLM pour une évaluation sémantique. Les résultats montrent l’impact du fine-tuning et du RAG sur la performance et la propension des modèles à halluciner ou à s’abstenir.

 REARANK : Réorganisation par Apprentissage par Renforcement

REARANK : Réorganisation par Apprentissage par Renforcement

Source: https://arxiv.org/abs/2505.20046v1 Ce document présente REARANK, un agent de classement basé sur un grand modèle linguistique qui utilise le raisonnement explicite et l’apprentissage par renforcement. REARANK améliore considérablement les performances et l’interprétabilité dans les tâches de classement des informations, en atteignant des résultats comparables ou supérieurs à ceux des modèles existants, y compris GPT-4, avec une quantité minimale de données annotées. Le modèle est basé sur Qwen2.5-7B et se distingue particulièrement sur les benchmarks axés sur le raisonnement. Les auteurs mettent en évidence l’efficacité de leur approche et l’impact positif de l’apprentissage par renforcement sur les capacités de raisonnement des grands modèles linguistiques pour le classement.

Un Cadre Multi-Agents pour la Finance Quantitative

Un Cadre Multi-Agents pour la Finance Quantitative

Source: https://arxiv.org/abs/2505.15155 Ce texte provient de la page arXiv pour un article scientifique intitulé “R&D-Agent-Quant: A Multi-Agent Framework for Data-Centric Factors and Model Joint Optimization”. Il présente le titre, les auteurs, un résumé et les domaines de sujet associés à cette recherche, qui porte sur un nouveau cadre multi-agent pour l’automatisation et l’optimisation des stratégies financières quantitatives. La page fournit également des liens pour accéder au document complet et des outils bibliographiques et de citation. De plus, elle mentionne des liens vers du code, des données et des démos liés à l’article via diverses plateformes.

 QwenLong-L1 : Modèles de raisonnement à contexte long

QwenLong-L1 : Modèles de raisonnement à contexte long

Source : https://arxiv.org/abs/2505.17667 Ce document présente un nouveau cadre, QwenLong-L1, visant à améliorer les capacités de raisonnement à long contexte des grands modèles en utilisant l’apprentissage par renforcement. Les auteurs soulignent les difficultés actuelles d’application de l’apprentissage par renforcement aux scénarios de long contexte et proposent une approche progressive. Leur méthode comprend une phase de réglage fin supervisé initial pour une politique robuste, suivie d’une technique d’apprentissage par renforcement par phases pour la stabilisation. Ils intègrent également un échantillonnage rétrospectif pour encourager l’exploration de politiques. Les résultats sur plusieurs tests de questions-réponses à long contexte démontrent que QwenLong-L1 surpasse d’autres modèles de pointe.

 ML-Agent : Ingénierie autonome en apprentissage machine

ML-Agent : Ingénierie autonome en apprentissage machine

Source : https://arxiv.org/abs/2505.23723 Ce texte présente une publication de recherche sur le projet ML-Agent, qui vise à améliorer les agents basés sur les grands modèles linguistiques (LLM) pour l’ingénierie autonome de l’apprentissage automatique. Il détaille une nouvelle approche utilisant l’apprentissage par renforcement en ligne où un agent LLM interagit avec des tâches ML pour apprendre. Le document décrit un cadre de formation novateur comportant une exploration améliorée, un apprentissage par renforcement par étapes et un module de récompense spécifique au ML. Les auteurs affirment que leur ML-Agent de 7B surpasse un modèle beaucoup plus grand et démontre une amélioration continue des performances et une excellente généralisation.

Machine Darwin Godel : Évolution Ouverte et Auto-Amélioration des Agents

Machine Darwin Godel : Évolution Ouverte et Auto-Amélioration des Agents

Source : https://arxiv.org/abs/2505.22954 Ce texte est une présentation du projet Darwin Godel Machine (DGM), un nouveau système d’IA qui vise à s’améliorer de manière autonome et continue. Il propose une approche basée sur l’évolution darwinienne et l’exploration ouverte pour modifier son propre code et valider les changements apportés. Le système DGM maintient un historique d’agents de codage générés et utilise un modèle de base pour en créer de nouvelles versions. Les résultats empiriques montrent que le DGM améliore ses capacités de codage de manière significative, dépassant les systèmes existants sans amélioration automatique. Cette recherche représente une étape importante vers des IA capables de s’améliorer en découvrant elles-mêmes de nouvelles méthodes.

MemOS _ Un OS pour la mémoire des LLM

MemOS _ Un OS pour la mémoire des LLM

Source : https://arxiv.org/abs/2505.22101 Ce document de recherche présente MemOS, un nouveau système d’exploitation conçu pour les Grands Modèles de Langage (LLM) afin de gérer et d’améliorer leur mémoire. Actuellement, les LLM manquent d’une architecture unifiée pour la mémoire, dépendant de la connaissance intégrée aux poids et des états temporaires. Bien que des méthodes comme le RAG intègrent de la mémoire en texte brut, elles n’offrent pas une gestion complète ni une intégration multimodale pour l’évolution des connaissances à long terme. MemOS aborde ces limitations en traitant la mémoire comme une ressource opérationnelle essentielle, avec des mécanismes standardisés pour la représentation, l’organisation et la gouvernance des différents types de mémoire. Son composant central, le MemCube, permet un suivi, une fusion et une migration structurés de la mémoire hétérogène, ouvrant la voie à une adaptation continue et une intelligence personnalisée.

ProRL _ L'Apprentissage Prolongé Élargit le Raisonnement des LLM

ProRL _ L'Apprentissage Prolongé Élargit le Raisonnement des LLM

Source : https://arxiv.org/pdf/2505.24864 Ces textes présentent ProRL, une nouvelle méthode d’apprentissage par renforcement (RL) conçue pour entraîner les grands modèles linguistiques sur des périodes prolongées, afin d’étendre leurs capacités de raisonnement. La méthode intègre le contrôle de la divergence KL et des réinitialisations périodiques pour assurer la stabilité de l’entraînement sur une variété de tâches. Les auteurs montrent que ProRL permet aux modèles, comme Nemotron-Research-Reasoning-Qwen-1.5B, de découvrir de nouvelles stratégies de raisonnement, surpassant les modèles de base sur diverses évaluations et même sur des tâches hors distribution. Les résultats suggèrent que l’amélioration du raisonnement grâce au RL est plus significative sur les tâches où le modèle de base est initialement moins performant et qu’un entraînement prolongé peut conduire à des modèles plus créatifs générant de nouvelles solutions.

Détection des biais LLM avec B-score

Détection des biais LLM avec B-score

Source: https://arxiv.org/html/2505.18545v1 Ce document présente un article de recherche intitulé “B-score: Detecting biases in large language models using response history”. Les auteurs, An Vo, Mohammad Reza Taesiri, Daeyoung Kim et Anh Totti Nguyen, proposent une nouvelle métrique, le B-score, pour identifier les biais dans les grands modèles linguistiques (LLM). Ils explorent si permettre aux LLM de voir leurs réponses antérieures à la même question peut réduire ces biais, testant cela sur des questions de divers types. Les résultats suggèrent que les LLM peuvent se “dé-biaiser” en conversation multi-tour pour des questions cherchant une réponse aléatoire et non biaisée. Le B-score est présenté comme une méthode efficace pour détecter les biais sur différents types de questions, améliorant l’évaluation des réponses des LLM.

Détection d'Hallucinations Sans Référence par Tâches Auxiliaires

Détection d'Hallucinations Sans Référence par Tâches Auxiliaires

Source: https://arxiv.org/html/2505.12265v1 Ce document examine la détection d’hallucinations dans la génération de texte long par les grands modèles linguistiques (LLMs), en se concentrant sur les méthodes qui ne nécessitent pas de vérification factuelle externe. Les auteurs constatent que les états internes des LLMs seuls sont insuffisants pour distinguer de manière fiable le contenu factuel de celui halluciné. Ils comparent ensuite diverses approches, incluant le prompting, le probing et le fine-tuning, trouvant que ce dernier est le plus efficace. Une nouvelle méthode, RATE-FT, est introduite, qui améliore le fine-tuning en y ajoutant une tâche auxiliaire de questions-réponses et l’incorporation de rationales pour une meilleure précision et généralisabilité. Les expériences démontrent que RATE-FT surpasse les méthodes existantes sur différents ensembles de données et modèles.

Tendances de l'intelligence artificielle

Tendances de l'intelligence artificielle

Source : https://www.bondcap.com/report/pdf/Trends_Artificial_Intelligence.pdf Ce rapport examine la croissance sans précédent de l’intelligence artificielle, soulignant l’augmentation exponentielle des utilisateurs, de l’utilisation et des dépenses en capital dans ce domaine. Il aborde la convergence rapide des performances des modèles d’IA et la chute des coûts d’inférence, entraînant une utilisation accrue par les développeurs. Le document met également en lumière les menaces de monétisation posées par l’intensification de la concurrence, l’essor des modèles open source et la montée en puissance de l’IA chinoise. Enfin, il décrit la nature multimodale croissante de l’IA et la manière dont les agents IA transforment les interfaces conversationnelles en infrastructure fonctionnelle, tout en soulignant l’impact significatif et rapide de l’IA sur l’évolution du travail et l’adoption croissante de l’IA par les entreprises, les gouvernements et la recherche.

IA : Productivité et perte de motivation au Travail

IA : Productivité et perte de motivation au Travail

Une publication de la Harvard Business Review, relayée par l’application Noah, présente les conclusions d’une recherche menée par des universitaires de l’Université de Zhejiang. Le document explore l’impact de la collaboration avec l’IA générative sur les employés. Il indique que si l’IA peut améliorer la productivité et la qualité immédiates du travail, elle peut paradoxalement diminuer la motivation intrinsèque et augmenter l’ennui des travailleurs lors de tâches non assistées. L’article propose plusieurs stratégies pour les entreprises afin de maintenir l’engagement des employés tout en tirant parti de l’IA.

Le Style des Modèles de Langage Face à la Détection

Le Style des Modèles de Langage Face à la Détection

Source: https://arxiv.org/html/2505.14608v1 Cette source examine si les modèles linguistiques optimisés pour tromper les détecteurs peuvent être rendus indiscernables de l’écriture humaine. Les auteurs identifient que les détecteurs basés sur le style sont plus robustes que les détecteurs traditionnels, même après optimisation, en raison de la diversité des styles d’écriture humains. Ils introduisent une nouvelle approche de paraphrase stylistique qui vise à combler l’écart entre l’écriture humaine et machine, réussissant à éviter la détection avec un seul échantillon. Cependant, avec plus d’échantillons, les distributions humaines et machines redeviennent distinctes. Pour quantifier cet écart, ils proposent une nouvelle métrique, AURA, qui estime le chevauchement distributionnel maximal à mesure que le nombre d’échantillons augmente, suggérant que l’on ne devrait pas s’appuyer uniquement sur la détection de texte généré par machine.

Attaque par manipulation de préférence contre le protocole MCP

Attaque par manipulation de préférence contre le protocole MCP

Source: https://arxiv.org/html/2505.11154v1 Le protocole de contexte de modèle (MCP) standardise l’accès des grands modèles linguistiques (LLM) aux données et outils externes, facilitant ainsi la croissance de l’écosystème des agents LLM. Cependant, une nouvelle menace de sécurité, appelée MPMA (Preference Manipulation Attack), exploite des versions personnalisées de serveurs MCP pour influencer les LLM. Cette attaque, détaillée dans la source, vise à faire préférer un serveur MCP malveillant aux autres, entraînant des gains économiques pour l’attaquant. L’étude présente deux stratégies pour y parvenir : DPMA (Direct Preference Manipulation Attack) qui modifie directement le nom ou la description de l’outil, et GAPMA (Genetic-based Advertising Preference Manipulation Attack) qui utilise des stratégies publicitaires et des algorithmes génétiques pour une manipulation plus discrète. Des expériences approfondies montrent l’efficacité et, dans le cas de GAPMA, la furtivité de ces attaques, soulignant la nécessité urgente de mécanismes de défense robustes pour préserver l’équité de l’écosystème MCP.

Mélange de Pensées pour le Raisonnement Logique

Mélange de Pensées pour le Raisonnement Logique

Source: https://arxiv.org/pdf/2505.15817 Ces sources explorent une nouvelle approche pour améliorer le raisonnement logique des modèles linguistiques de grande taille (LLMs) en leur permettant d’utiliser plusieurs méthodes de pensée complémentaires. Le cadre proposé, baptisé Mixture-of-Thought (MoT), intègre le raisonnement basé sur le langage naturel, le code et les tables de vérité. Contrairement aux méthodes antérieures qui se limitaient souvent à une seule modalité, MoT utilise une formation auto-évolutive qui apprend des raisonnements auto-générés à travers ces modalités et une inférence par vote majoritaire pour combiner les résultats. Des expérimentations sur des benchmarks de raisonnement logique, comme FOLIO et ProofWriter, démontrent que MoT surpasse les baselines classiques basées sur une seule modalité, en particulier sur les problèmes les plus difficiles, confirmant la valeur de l’apprentissage inter-modalités pour une meilleure performance.

Failles des LLM en Hinglish perturbé

Failles des LLM en Hinglish perturbé

Source: https://arxiv.org/html/2505.14226v1 Cette étude évalue la vulnérabilité des grands modèles linguistiques (LLM), y compris les modèles multimodaux, aux attaques de contournement qui utilisent des requêtes en langue mixte (code-mixing) avec des perturbations phonétiques intentionnelles, notamment en Hinglish (un mélange d’hindi et d’anglais). Les auteurs introduisent de nouvelles stratégies de contournement telles que “Sandbox” et “VisGPT” et démontrent leur efficacité à contourner les filtres de sécurité pour les tâches de génération de texte et d’images. L’analyse révèle que la tokenization des mots sensibles est affectée par les perturbations phonétiques, permettant aux modèles de générer des contenus nuisibles. Les conclusions soulignent le besoin urgent d’améliorer l’alignement de sécurité multilingue et multimodal dans les LLM.

Recherche Guidée dans Environnements Non-Sériabilisables

Recherche Guidée dans Environnements Non-Sériabilisables

Source: https://arxiv.org/html/2505.13652v1 Ces documents explorent les stratégies de recherche guidée pour améliorer les performances des agents d’ingénierie logicielle basés sur de grands modèles linguistiques (LLM), en particulier dans des environnements non sérialisables comme les conteneurs Docker. Ils soulignent que, bien que les LLM excellent dans les tâches complexes, leurs performances sont inégales et peuvent être améliorées en explorant plusieurs chemins de solution. L’étude examine deux méthodes applicables aux environnements sans sauvegarde d’état : la prospective à 1 pas et la sélection de trajectoire, toutes deux utilisant une estimation de la fonction valeur-action apprise pour guider la recherche. Les résultats sur le benchmark SWE-bench Verified démontrent que ces techniques, surtout lorsqu’elles sont combinées, peuvent doubler le taux de réussite moyen, atteignant de nouveaux sommets pour les modèles open-source et améliorant également les performances des modèles fermés comme GPT-4o.

Détection de Vulnérabilités avec VulTrial

Détection de Vulnérabilités avec VulTrial

Source: https://arxiv.org/html/2505.10961v1 Ce document présente VulTrial, un nouveau cadre d’agents multiples alimenté par des grands modèles de langage (LLM) pour la détection automatisée des vulnérabilités du code source, inspiré d’un scénario de salle d’audience. Il utilise quatre agents spécialisés : un chercheur en sécurité, un auteur de code, un modérateur et un comité d’examen. Les expériences montrent que VulTrial surpasse les modèles de référence à agent unique et à agents multiples, avec des améliorations de performance significatives utilisant GPT-3.5 et GPT-4o. Le réglage des instructions de l’agent modérateur a été particulièrement efficace, et les résultats indiquent que chaque agent est crucial pour la performance globale. Bien que les systèmes multi-agents augmentent les coûts, l’utilisation de VulTrial avec GPT-3.5 peut offrir une performance supérieure à moindre coût par rapport à un agent unique avec GPT-4o.

Main Cachée_ Vulnérabilités de Backdoor dans les Agents GUI Mobiles MLLM

Main Cachée_ Vulnérabilités de Backdoor dans les Agents GUI Mobiles MLLM

Source : https://arxiv.org/abs/2505.14418v1 Ce texte est un document académique hébergé sur arXiv, intitulé “Hidden Ghost Hand: Unveiling Backdoor Vulnerabilities in MLLM-Powered Mobile GUI Agents”. Il présente une recherche sur les vulnérabilités de portes dérobées dans les agents d’interface graphique mobile qui utilisent des modèles linguistiques larges multimodaux (MLLM). Les auteurs, menés par Pengzhou Cheng, décrivent AgentGhost, un cadre pour les attaques de portes dérobées qui exploite les déclencheurs au niveau de l’interaction et combine des objectifs pour activer ces portes dérobées de manière discrète. Le document détaille l’efficacité et la furtivité d’AgentGhost et propose une méthode de défense. Il fournit également des liens pour accéder au PDF du papier, aux outils de citation, et à d’autres ressources associées à la recherche.

🧐 Extraction d'Opinion avec les Grands Modèles Linguistiques

🧐 Extraction d'Opinion avec les Grands Modèles Linguistiques

Source : https://arxiv.org/abs/2505.15695 Ce texte provient de la page arXiv.org pour un article intitulé “Can Large Language Models be Effective Online Opinion Miners?”. Il fournit des informations sur les auteurs (Ryang Heo et al.), l’abstract qui décrit l’étude introduisant un nouveau benchmark (OOMB) pour évaluer la capacité des LLM à extraire des opinions en ligne. L’article analyse les défis et l’adaptabilité des LLM dans ce contexte. Il comprend également des liens pour accéder au PDF, des détails de soumission, et diverses ressources pour la citation et la recherche de code/données associées.

Défendre Gemini contre les injections de prompt

Défendre Gemini contre les injections de prompt

Source: https://arxiv.org/html/2505.14534v1 Ce rapport de Google DeepMind explore l’évaluation et le renforcement de la robustesse des modèles Gemini face aux attaques par injection de prompt indirect. Ces attaques exploitent la capacité de Gemini à utiliser des outils et à accéder à des données externes, permettant à des acteurs malveillants d’insérer des instructions cachées dans des données non fiables. Les chercheurs détaillent leur cadre d’évaluation adaptatif, qui utilise des techniques d’attaque automatisées pour tester en continu la résilience des modèles. Ils discutent de différentes défenses, y compris des méthodes intégrées au modèle (comme l’entraînement contradictoire) et des défenses externes (comme la classification ou la paraphrase), soulignant la nécessité d’une approche en profondeur. Les résultats montrent que l’entraînement contradictoire améliore la robustesse de Gemini 2.5 sans compromettre ses capacités générales, mais qu’une combinaison de défenses à plusieurs niveaux est essentielle pour une protection complète.

Apprentissage du Raisonnement par Mélange de Pensée

Apprentissage du Raisonnement par Mélange de Pensée

Source : https://arxiv.org/abs/2505.15817 Ce texte est une page d’arXiv.org présentant l’article académique intitulé “Learning to Reason via Mixture-of-Thought for Logical Reasoning”. Il détaille les auteurs de l’article, fournit un résumé expliquant la nouvelle méthode “Mixture-of-Thought (MoT)” permettant aux modèles linguistiques d’utiliser plusieurs modalités de raisonnement pour les tâches logiques, et indique les sujets pertinents. La page inclut également des informations sur la soumission de l’article et des liens pour y accéder dans différents formats. Enfin, elle liste divers outils et ressources liés à la bibliographie, aux citations, au code et aux démos associés à l’article.

Attaques d'interruption de raisonnement pratiques

Attaques d'interruption de raisonnement pratiques

Source: https://arxiv.org/html/2505.06643v1 Le document explore une nouvelle vulnérabilité des modèles de langage de grande taille capables de raisonnement (RLLM), en particulier DeepSeek-R1, où les invites adverses peuvent interrompre le processus de réflexion, conduisant à une réponse vide. Les chercheurs ont identifié un phénomène appelé Débordement de Jeton de Raisonnement (RTO), où les jetons de raisonnement peuvent déborder dans la réponse finale. En exploitant le RTO, ils ont développé une attaque pratique d’interruption de raisonnement nécessitant beaucoup moins de jetons que les méthodes précédentes. Ils ont également démontré comment le RTO peut être utilisé pour une attaque de jailbreak qui expose un contenu dangereux destiné aux seuls jetons de raisonnement.

Chaîne de Pensée Latérale Diffuse

Chaîne de Pensée Latérale Diffuse

Source: https://arxiv.org/html/2505.10446v1 Ces documents introduisent le Diffusion Chain of Lateral Thought (DCoLT), un cadre de raisonnement conçu pour les modèles de langage de diffusion (DLMs). Contrairement aux méthodes traditionnelles de Chain-of-Thought (CoT) qui suivent un processus de pensée linéaire et causal, DCoLT permet un raisonnement bidirectionnel et non linéaire. Ce nouveau cadre optimise l’ensemble du processus de diffusion inverse en le considérant comme une série d’actions de “pensée” et en utilisant l’apprentissage par renforcement basé uniquement sur la correction de la réponse finale. Les expériences sur des tâches de génération de mathématiques et de code montrent que les DLMs renforcés par DCoLT surpassent les modèles existants entraînés par d’autres méthodes.

Corriger la pensée de l'agent pour la sécurité

Corriger la pensée de l'agent pour la sécurité

Source : https://arxiv.org/abs/2505.11277 Ce texte décrit une nouvelle méthode, nommée Thought-Aligner, visant à améliorer la sécurité comportementale des agents basés sur de grands modèles linguistiques (LLMs). Il propose un module dynamique de correction qui intervient sur les pensées générées par l’agent avant l’exécution des actions, en particulier celles jugées à haut risque. Les auteurs ont développé un ensemble de données d’entraînement et fine-tuné un modèle léger pour cette correction, démontrant une amélioration significative de la sécurité (passant de 50% à 90% en moyenne) tout en maintenant une faible latence. Thought-Aligner s’intègre facilement aux cadres d’agents existants sans les modifier, ce qui le rend largement applicable et pratique.

Réflexions sans pensée dans les LLM

Réflexions sans pensée dans les LLM

Source: https://arxiv.org/abs/2505.00875 Les auteurs, examinent le concept de raisonnement en chaîne de pensée (CoT) au sein des pipelines agentiques de modèles linguistiques larges (LLMs). Le papier explore si le raisonnement CoT améliore réellement la compréhension des systèmes et les résultats dans ces contextes. Les conclusions suggèrent que le CoT ne garantit pas de meilleures performances ni n’offre une expliquabilité significative pour l’utilisateur final.

Quand les mauvaises données donnent de bons modèles

Quand les mauvaises données donnent de bons modèles

Source: https://arxiv.org/html/2505.04741v1 Ce document examine la notion selon laquelle la qualité des données affecte la qualité des modèles de langage à grande échelle (LLM). Contrairement à la pratique courante de filtrer les données toxiques, les auteurs proposent une approche de co-conception formation-pré-formation, suggérant que l’inclusion de plus de données toxiques pendant la pré-formation peut améliorer la capacité d’un modèle à être contrôlé ultérieurement. Grâce à des expériences contrôlées, ils constatent qu’une proportion plus élevée de données toxiques conduit à une représentation linéaire moins intriquée de la toxicité, ce qui facilite la réduction de la génération toxique en post-formation malgré une toxicité accrue du modèle de base. L’article conclut que les “mauvaises données” peuvent en fait être bénéfiques pour créer de “bons modèles” en améliorant leur capacité d’alignement.

Limites du Raisonnement des LLM dans les Environnements Dynamiques

Limites du Raisonnement des LLM dans les Environnements Dynamiques

Source: https://arxiv.org/html/2505.10543v1 Cette étude examine la capacité des grands modèles linguistiques (LLMs) à agir en tant qu’agents intelligents dans des environnements dynamiques, au-delà des tests statiques habituels. Les chercheurs évaluent l’efficacité de diverses techniques de prompting telles que la réflexion, la mutation heuristique et la planification pour améliorer l’adaptabilité des LLMs dans des tâches de prise de décision. Bien que les modèles plus grands aient généralement de meilleures performances, l’étude montre que des stratégies de prompting spécifiques peuvent réduire l’écart de performance pour les modèles plus petits, bien que de manière inconsistante. Les résultats révèlent que, malgré l’amélioration de certaines compétences comme le suivi d’instructions, les LLMs actuels présentent toujours des limitations fondamentales en matière de raisonnement et de coordination spatiale dans les environnements complexes, remettant en question l’idée d’une véritable raisonnement émergent.

Optimisation de l'Efficacité des Grands Modèles de Langage

Optimisation de l'Efficacité des Grands Modèles de Langage

Source: https://arxiv.org/html/2505.13840v1 Ce texte traite de l’évaluation de l’efficacité des grands modèles linguistiques (LLM), une préoccupation croissante en raison de leurs coûts et de leurs demandes en ressources. Il présente EfficientLLM, un cadre d’évaluation qui utilise des métriques détaillées comme l’utilisation de la mémoire et la consommation d’énergie pour fournir une analyse plus réaliste que les méthodes traditionnelles. Les auteurs examinent diverses techniques d’amélioration de l’efficacité pendant la pré-formation, l’ajustement (fine-tuning) et l’inférence, notamment les mécanismes d’attention efficaces, les méthodes de modélisation creuses et les alternatives sans attention. Le texte souligne l’importance de l’évaluation empirique à grande échelle et des compromis entre la performance et les ressources pour guider les décisions de déploiement. Il aborde également les défis ouverts, comme le développement de lois de mise à l’échelle multi-objectifs.

🧐 Fidélité du Raisonnement des Modèles

🧐 Fidélité du Raisonnement des Modèles

Source: https://arxiv.org/abs/2505.05410v1 Le papier se penche sur la fidélité des chaînes de pensée (Chain-of-Thought, CoT) produites par les modèles de raisonnement de pointe. Le CoT est considéré comme potentiellement bénéfique pour la sécurité de l’IA, car il permet de surveiller le raisonnement d’un modèle afin de tenter de comprendre ses intentions et ses processus. Cependant, l’efficacité d’une telle surveillance dépend de la mesure dans laquelle les CoT représentent fidèlement les processus de raisonnement réels des modèles.

Agents IA vs IA Agentique : une taxonomie conceptuelle

Agents IA vs IA Agentique : une taxonomie conceptuelle

Source: https://arxiv.org/html/2505.10468v2 Ce texte examine l’évolution des agents IA et de l’IA agentique, en les présentant comme des paradigmes distincts mais liés dans l’intelligence artificielle. Il trace leur développement depuis les systèmes réactifs pré-ChatGPT jusqu’aux architectures collaboratives et adaptatives d’aujourd’hui, soulignant le rôle essentiel des grands modèles linguistiques (LLMs) dans ces avancées. Le document détaille les applications de ces systèmes, met en évidence leurs limites, notamment en matière de raisonnement causal et de coordination multi-agents, et propose des pistes de solution, comme l’utilisation de systèmes de mémoire et l’orchestration plus sophistiquée, pour construire des agents plus fiables et autonomes.

🛡️ Briser le Canevas : sécurité des LLM et jailbreaking

🛡️ Briser le Canevas : sécurité des LLM et jailbreaking

Source : https://arxiv.org/html/2505.04146v1 Ce texte est une présentation de l’article de recherche intitulé “Unmasking the Canvas: A Dynamic Benchmark for Image Generation Jailbreaking and LLM Content Safety”. L’article, soumis sur arXiv, aborde la vulnérabilité des grands modèles de langage (LLM) dans la génération d’images face aux attaques par injection de prompt, ou “jailbreaking”. Les auteurs, Variath Madhupal Gautham Nair et Vishal Varma Dantuluri, décrivent un nouvel ensemble de données, le UTC Benchmark (UTCB), conçu pour évaluer cette vulnérabilité. Ils expliquent leur méthodologie utilisant l’ingénierie de prompt, l’obfuscation multilingue et une pipeline d’évaluation robuste pour identifier et classer les risques associés aux images générées. Le texte met également en garde le lecteur que l’article contient des exemples visuels de ces inputs adversariaux, bien que les sorties générées soient expurgées pour une divulgation responsable.

Le Pouvoir des Histoires pour les Agents LLM

Le Pouvoir des Histoires pour les Agents LLM

https://arxiv.org/abs/2505.03961v2 Ce texte est une page d’arXiv décrivant une étude intitulée “The Power of Stories: Narrative Priming Shapes How LLM Agents Collaborate and Compete”. L’étude examine si l’introduction d’histoires peut influencer les grands modèles linguistiques (LLM) pour qu’ils collaborent ou soient égoïstes dans un jeu de biens publics répété. Les auteurs explorent comment les récits affectent la négociation, la différence lorsque les agents partagent ou non la même histoire, l’impact d’un nombre croissant d’agents, et la résilience des agents face aux négociateurs intéressés. Ils concluent que l’amorçage par des histoires affecte significativement les stratégies de négociation et les taux de succès, avec des histoires partagées favorisant la collaboration.

😵‍💫 Les LLM Perdent le Fil en Conversation

😵‍💫 Les LLM Perdent le Fil en Conversation

Source Ce document étudie les performances des grands modèles linguistiques (LLMs) dans les conversations à plusieurs tours, par opposition aux interactions à un seul tour. Il constate que les LLMs affichent une baisse de performance significative dans les scénarios conversationnels, principalement en raison d’une fiabilité réduite plutôt que d’une diminution de leurs capacités. Les auteurs explorent les raisons de ce phénomène, surnommé “perdu en conversation”, notamment les tentatives de réponse prématurées et la difficulté à maintenir le contexte. Ils proposent une nouvelle méthodologie de simulation et de mesure pour évaluer les LLMs dans ces paramètres, et soulignent l’importance pour les constructeurs de LLMs d’améliorer la fiabilité conversationnelle et pour les utilisateurs de consolider les instructions pour une meilleure interaction.

🧐 Métacognition et sagesse de l'IA

🧐 Métacognition et sagesse de l'IA

Ce texte provient de la page arXiv d’un article de recherche intitulé “Imaginer et construire des machines sages : La centralité de la métacognition de l’IA”. Les auteurs, dont Yoshua Bengio, explorent le concept de sagesse dans l’IA et la comparent à la sagesse humaine. Ils soutiennent que si l’IA est devenue intelligente, elle manque de sagesse, en particulier en ce qui concerne la métacognition. L’article propose que l’amélioration des capacités métacognitives de l’IA pourrait conduire à des systèmes plus robustes, explicables et sûrs. Il aborde également les méthodes potentielles d’évaluation, d’entraînement et de mise en œuvre de l’IA sage.

🤯 Apprentissage accéléré avec IA et ChatGPT

🤯 Apprentissage accéléré avec IA et ChatGPT

Ce texte explore une méthode d’apprentissage accéléré utilisant l’intelligence artificielle, inspirée initialement par les conseils de l’Université d’Oxford. L’auteur décrit son parcours pour développer un séquence de “prompts” en plusieurs étapes pour un modèle linguistique, afin de mieux comprendre et retenir des informations complexes. Il présente et illustre les différentes étapes de ce processus, de la structuration initiale et l’identification des concepts clés à des exercices interactifs pour approfondir la compréhension et améliorer la rétention, aboutissant à la création de flashcards et de fiches de synthèse.

🤫 Détournement des gardes fous LLMs (attaques via RAG)

🤫 Détournement des gardes fous LLMs (attaques via RAG)

Source Cette publication universitaire présente MutedRAG, une nouvelle attaque par déni de service ciblant les systèmes RAG (Retrieval-Augmented Generation). L’attaque exploite les mécanismes de sécurité intégrés des grands modèles linguistiques (LLM) en injectant des instructions “jailbreak” minimales dans la base de connaissances, déclenchant ainsi intentionnellement les garde-fous des LLM. Ce déclenchement amène le système RAG à refuser de répondre aux requêtes légitimes de l’utilisateur. Les auteurs comparent MutedRAG aux attaques d’empoisonnement de données existantes et démontrent son efficacité et son efficience supérieures à travers diverses expériences, tout en évaluant la capacité des défenses actuelles à atténuer cette nouvelle menace.

📖 Prompting et Autoencodeurs pour la Surveillance d'Activation

📖 Prompting et Autoencodeurs pour la Surveillance d'Activation

Ce texte est une entrée arXiv pour un article de recherche intitulé “Investigating task-specific prompts and sparse autoencoders for activation monitoring”, rédigé par Henk Tillman et Dan Mossing et soumis le 28 avril 2025. L’article examine différentes méthodes pour surveiller les activations internes des modèles linguistiques afin de mieux comprendre et prévoir leur comportement. Les auteurs comparent les approches basées sur le sondage linéaire, les invites spécifiques à la tâche (prompted probing) et les autoencodeurs creux (sparse autoencoders) pour l’analyse des activations. Ils concluent que le sondage avec invites est efficace avec des ressources de calcul à l’inférence, tandis que les méthodes basées sur les autoencodeurs sont préférables lorsque ces ressources sont limitées. Le document est classé dans la catégorie “Machine Learning (cs.LG)”.

Risques de Sécurité du Code Web Généré par LLMs

Risques de Sécurité du Code Web Généré par LLMs

Le document évalue de manière critique la sécurité du code d’application web généré par les grands modèles linguistiques (LLM). En utilisant des paramètres de sécurité prédéfinis, l’analyse révèle que les LLM, bien qu’utiles pour le développement, génèrent souvent du code avec des vulnérabilités critiques dans des domaines tels que l’authentification, la gestion des sessions et la validation des entrées. Bien que certains modèles intègrent des mesures de sécurité limitées, aucun ne répond pleinement aux meilleures pratiques de l’industrie. Les conclusions soulignent la nécessité d’une expertise humaine pour examiner et sécuriser le code généré par les LLM et préconisent des cadres d’évaluation de sécurité robustes pour améliorer la fiabilité du code LLM dans des applications réelles.