Analyse du Rapport NIST AI 100-2e2025

Adversarial Machine Learning : Taxonomie et Terminologie des Attaques et des Atténuations

J’ai étudié avec attention ce rapport et je vous propose ci-dessous une synthèse portant sur un type de menace encore peu documenté à ce jour.

Ce rapport NIST AI 100-2e2025, publié en mars 2025 par le National Institute of Standards and Technology (NIST), propose un cadre de référence pour comprendre, classifier et mitiger les attaques adversariales contre les systèmes d’intelligence artificielle.

Il s’inscrit dans une dynamique de normalisation et de gouvernance sécuritaire de l’IA, en réponse à une croissance rapide des usages en environnements sensibles et à une surface d’attaque en expansion constante.

Ce document technique vise à fournir une terminologie rigoureuse et une taxonomie complète des attaques, en abordant à la fois les systèmes d’IA prédictive (PredAI) et générative (GenAI), tout en identifiant les limites des stratégies de défense actuelles.

1. Objectifs et portée du rapport

Le rapport a trois objectifs principaux :

  1. Proposer une terminologie cohérente pour décrire les attaques adversariales en machine learning ;
  2. Établir une taxonomie rigoureuse permettant de classer les types d’attaques selon leurs cibles, leurs phases et leurs caractéristiques techniques ;
  3. Offrir une synthèse critique des méthodes de mitigation existantes et des défis à venir.

Le périmètre couvre :

  • Les modèles PredAI, majoritairement supervisés, utilisés pour la classification, la régression ou la détection d’anomalies ;
  • Les modèles GenAI, notamment les LLMs (large language models) et systèmes multimodaux, de plus en plus présents dans les applications sensibles.

2. Dimensions de classification des attaques

Le NIST propose un cadre multi-dimensionnel pour catégoriser les attaques :

a. Phase du cycle de vie ciblée

  • Prétraitement : altération des données en amont de l’entraînement ;
  • Entraînement : empoisonnement, backdoor ;
  • Validation : manipulation de métriques ;
  • Inférence : attaques par évasion, attaques sur la confidentialité.

b. Objectif de l’attaquant

  • Disponibilité : perturber la sortie ou provoquer des erreurs ;
  • Intégrité : forcer une décision incorrecte sur des cas spécifiques ;
  • Confidentialité : extraire des informations sensibles du modèle ou des données.

c. Capacité et accès

  • Boîte noire : l’attaquant ne connaît ni les données, ni le modèle ;
  • Boîte grise : connaissance partielle (ex : API, structure du modèle) ;
  • Boîte blanche : accès complet au code et aux paramètres.

d. Type d’attaque

  • Empoisonnement (Data Poisoning) : injection de données biaisées ou malveillantes dans l’ensemble d’entraînement. Variantes : targeted, clean-label, backdoor.
  • Évasion (Evasion Attacks) : perturbation des entrées pour induire une mauvaise classification. Exemples : Fast Gradient Sign Method (FGSM), Carlini-Wagner.
  • Atteinte à la vie privée (Privacy Attacks) : techniques telles que Membership Inference, Model Inversion, Extraction Attacks.

3. Spécificités des attaques sur les systèmes GenAI

Le rapport consacre un chapitre entier à la singularité des systèmes génératifs, qui peuvent être attaqués non seulement pour dégrader leurs performances, mais aussi pour manipuler la sémantique des sorties générées.

a. Prompt injection

Technique qui consiste à injecter des instructions malveillantes via la chaîne d’entrée, exploitant le comportement autoregressif des LLMs.

b. Instruction override

Subversion de consignes de sécurité intégrées au modèle par des formulations subtiles ou ambigües dans l’entrée utilisateur.

c. Backdoors en génération

Entraînement d’un modèle à générer un comportement spécifique lorsqu’un motif déclencheur est détecté dans l’entrée.

d. Output leakage

Fuites involontaires d’informations sensibles apprises ou mémorisées durant l’entraînement, phénomène observé dans certains LLMs à base de documents confidentiels.

4. Méthodes de mitigation : état des lieux critique

Le rapport identifie quatre grandes catégories de stratégies défensives, tout en soulignant leur efficacité limitée dans des contextes réels :

a. Robustesse empirique

Exemples : adversarial training, ensemble learning, mixup. Ces méthodes améliorent la tolérance locale aux perturbations, mais sont coûteuses et ciblées.

b. Détection d’attaques

Utilisation de détecteurs intégrés ou d’analyses statistiques pour repérer les anomalies. Peu de garanties théoriques, et efficacité réduite face à des attaques adaptatives.

c. Nettoyage de données

Méthodes de filtrage ou de désinfection (ex : STRIP, data sanitization). Fonctionnent surtout en cas de données labellisées correctement.

d. Confidentialité différentielle et cryptographie

Méthodes formelles pour encadrer les atteintes à la vie privée, mais limitées en performance ou en applicabilité dans les systèmes complexes.

Le rapport insiste sur l’absence de solutions universelles. La majorité des approches sont spécifiques à un modèle, un jeu de données, ou un scénario d’attaque précis.

5. Limites et perspectives

Le NIST souligne que :

  • La standardisation des évaluations est essentielle : les benchmarks actuels sont hétérogènes ;
  • Il manque encore des critères de sécurité formels et généralisables pour les modèles GenAI ;
  • L’approche « red team / blue team » appliquée aux IA nécessite une maturation méthodologique.

Enfin, le rapport plaide pour une intégration de ces enjeux dans les cycles DevSecOps, via des pratiques de machine learning assurance : audits, tests d’adversarialité, contrôle des dépendances, traçabilité.

Ma lecture

Le rapport NIST AI 100-2e2025 constitue une contribution majeure à la structuration des connaissances sur les attaques adversariales contre les systèmes d’IA.

En clarifiant les types de menaces, en identifiant les points de fragilité, et en posant les bases d’une gouvernance technique, il permet d’harmoniser les pratiques entre les mondes du machine learning et de la cybersécurité.

Dans un contexte de régulation croissante et de déploiement massif des IA dans des environnements critiques, cette démarche est essentielle pour garantir une résilience mesurable des modèles d’IA mais il faudra surveiller l’évolution de la menace associée à l’IA et son usage.

Sources

  • NIST, Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations, NIST AI 100-2e2025, March 2025. https://doi.org/10.6028/NIST.AI.100-2e2025
  • Papernot et al., The Limitations of Defenses Against Adversarial Examples, 2018.
  • Tramer et al., Adversarial Examples Are Not Easily Detected, 2020.
  • Carlini et al., Evaluating and Testing LLMs for Red Teaming, 2024.
  • Google DeepMind, Prompt injection attacks and mitigations, 2023.
  • OpenAI, Robustness in GPT models: Ongoing Research, 2024.