Analyse d’un incident sans compromission récente: Compilation de 16 milliards d’identifiants

Suite à l’épisode de RadioCSIRT de Vendredi, j’ai produit cette synthèse sur la nouvelle d’une prétendue « mère de toutes les fuites de données » – une base de 16 milliards d’identifiants – a fait les gros titres récemment, suscitant de vives inquiétudes dans la communauté cyber.

Cependant, il convient d’aborder ce chiffre impressionnant avec calme et objectivité.

En réalité, aucune nouvelle intrusion n’a eu lieu : ces informations proviennent d’une agrégation de données volées existantes, collectées au fil du temps lors de fuites précédentes et via des programmes malveillants d’infostealers.

Le podcast spécialisé RadioCSIRT a d’ailleurs dénoncé un emballement médiatique injustifié autour de cette annonce, la qualifiant de « panique inutile » car aucun site web n’a été compromis récemment pour aboutir à cette compilation.

Origine des données : infostealers et fuites passées

D’après les informations disponibles, cette vaste base de 16 milliards d’identifiants résulte de la mise en commun de plusieurs ensembles de données déjà dérobées par le passé. Concrètement, une trentaine de jeux de données distincts ont été découverts exposés en ligne par une équipe de chercheurs en cybersécurité, leur total combiné atteignant les 16 milliards d’entrées.

Le plus volumineux de ces lots représentait à lui seul environ 3,5 milliards d’enregistrements, tandis que d’autres en contenaient plusieurs dizaines ou centaines de millions. Ces informations sensibles n’ont pas toutes la même provenance. Une grande partie émane de maliciels de type infostealer, c’est-à-dire des logiciels malveillants voleurs d’informations capables d’aspirer les identifiants et mots de passe stockés sur les appareils infectés (navigateurs web, gestionnaires de mots de passe non sécurisés, etc.).

Lorsqu’un infostealer infecte un poste, il collecte en silence toutes les informations d’authentification qu’il peut et les enregistre dans ce qu’on appelle un « log » : généralement un ensemble de fichiers textes listant les sites (URL), les noms d’utilisateur et les mots de passe volés.

Ces logs sont ensuite envoyés aux attaquants, qui peuvent les revendre ou les agréger pour constituer de larges bases exploitables.

Outre les infostealers, l’autre composant majeur de cette compilation sont des données issues de brèches antérieures déjà connues du public ou des spécialistes. Depuis des années, des milliards de couples identifiants-mots de passe circulent librement sur internet, que ce soit sur des forums clandestins, Telegram, ou d’autres plateformes, souvent publiés gratuitement par des acteurs malveillants cherchant à se faire une réputation.

Il n’est donc pas surprenant qu’un acteur ait eu l’idée de rassembler ces archives éparses en une méga-base unifiée, regroupant à la fois des identifiants provenant de fuites « classiques » (piratage de sites ou de bases de données dans le passé) et des identifiants volés par des infostealers récents sur des machines compromises.

La compilation signalée a été découverte par des chercheurs (notamment l’équipe de Cybernews) après avoir été brièvement exposée en ligne de façon non sécurisée. Sa structure – des listings d’identifiants sous forme “URL:utilisateur:mot de passe” – a immédiatement indiqué qu’il s’agissait très vraisemblablement de données d’infostealers.

Bref, cette base ne révèle pas une attaque inédite, mais rassemble des données volées disponibles depuis parfois des années dans les cercles cybercriminels.

Un volume record, sans données inédites

Avec 16 milliards d’enregistrements, la taille de cet agrégat peut légitimement impressionner. De nombreux services en ligne y figurent, des géants du web (Google, Apple, Meta/Facebook, etc.) jusqu’aux services financiers, VPN, plateformes développeurs et autres – en réalité, tous les secteurs sont représentés dès lors que d’anciens identifiants d’utilisateurs ont fuité.

Je retiens qu’il est crucial de noter que ce chiffre brut ne correspond pas forcément à 16 milliards de comptes distincts. En effet, des doublons et recoupements existent inévitablement entre les différents lots compilés.

Pour être clair, un même identifiant compromis lors de plusieurs incidents pourrait apparaître plusieurs fois dans la base. Les experts estiment ainsi qu’il est impossible de déterminer le nombre de victimes uniques concernées par ces 16 milliards d’entrées, tant les sources sont variées et se chevauchent partiellement.

Par ailleurs, aucune preuve n’indique la présence de données jusqu’ici inconnues dans cette compilation. Tout porte à croire qu’elle ne contient que des informations déjà exposées antérieurement, d’une manière ou d’une autre, par différents incidents ou malware. Ce n’est d’ailleurs pas la première fois qu’une fuite agrégée de très grande ampleur fait surface. On se souvient par exemple du leak “RockYou2024” recensant plus de 9 milliards d’identifiants en 2021, ou encore de la collection “Collection #1” regroupant des millions de mots de passe uniques issus de multiples violations.

Ces cas, tout comme la compilation actuelle, n’ajoutaient pas de compromissions supplémentaires mais illustraient la réutilisation et la rediffusion massive de données volées existantes.

En clair, le record quantitatif de 16 milliards n’implique pas une aggravation soudaine de la menace, mais il souligne la persistance d’un vaste stock de données d’authentification dérobées circulant dans l’écosystème cybercriminel.

Ma conclusion

Pour les équipes de sécurité (CERT/CSIRT, SOC) et les responsables SSI (CISO), ce dossier des « 16 milliards d’identifiants » doit être abordé comme un rappel plutôt qu’une alerte inédite.

Aucune attaque nouvelle n’a compromis les systèmes de l’entreprise dans ce contexte ; il s’agit d’une agrégation de fuites historiques et de vols par malware. Inutile de céder à la panique : l’incident confirme surtout l’importance de maintenir rigoureusement les bonnes pratiques de sécurité déjà formalisées dans vos PSSI.

Concrètement, la gestion sécurisée des mots de passe (robustesse, unicité, changement régulier, non-réutilisation entre services personnels et professionnels), l’authentification multifacteur, la sensibilisation aux malwares voleurs d’informations et la surveillance des comptes (par exemple via des services de notification de compromission) sont plus que jamais de mise – ce sont des mesures qui font partie des politiques de sécurité existantes et qui protègent efficacement l’organisation.

En appliquant rigoureusement ces principes, il est possible de faire en sorte qu’une compilation massive de données de ce type reste une menace purement théorique, déjà couverte par les dispositifs de sécurité en place, plutôt qu’un incident actif à traiter en urgence

En somme, cette annonce doit inciter à redoubler de vigilance dans le respect des normes de sécurité en place, sans pour autant alimenter une crainte excessive puisqu’elle ne révèle pas de brèche supplémentaire.

Enjoy !

Sources :

BleepingComputerhttps://www.bleepingcomputer.com/news/security/no-the-16-billion-credentials-leak-is-not-a-new-data-breach/

Podcast RadioCSIRThttps://www.radiocsirt.org/podcast/compilation-de-16-milliards-didentifiants-panique-inutile-ep-329/